 Estadística y Excel, Varianza Poblacional y Desviación estándar. Tiene datos, vamos a meternos en ellos con estadísticas y Excel, no es necesario, pero si tiene acceso a OneNote, estamos en el icono del lado izquierdo de la presentación de OneNote 1432 Variación de Población y Pestaña de Desviación estándar. También estamos cargando transcripciones para que puedas ir a la pestaña de vista, usar la herramienta de lectura inmersiva, cambiar el idiomas y así lo deseas. 033 A continuación, puede leer o escuchar las transcripciones en varios idiomas diferentes utilizando las marcas de tiempo para vincularlas a las presentaciones de vídeo. La versión de escritorio de OneNote aquí tiene datos en el lado izquierdo, recordando que en presentaciones anteriores, hemos estado pensando en cómo podemos tomar nuestro conjunto de datos y resumirlo, representarlo de manera significativa utilizando representaciones numéricas y representaciones pictóricas, representaciones numéricas, incluidas las estadísticas estándar, como la media, o el promedio, la mediana, el cuartil 1, el cuartil 3, etc. Cuando nos fijamos en las representaciones pictóricas, hablamos de la caja y los bigotes o diagrama de caja, así como del histograma. Ahora bien, cada una de estas herramientas tiene sus usos. Sin embargo, ahora queremos pensar más en la distribución de los datos alrededor de un punto central, y el histograma nos da una idea de eso pictóricamente. Sin embargo, también nos gustaría tener una representación más numérica de eso. Ahora, hemos pensado en la última vez, un concepto de desviación promedio. Y es útil una vez más pensar en ello intuitivamente. Así que vamos a dar un resumen rápido de eso. Y luego pasaremos a los cálculos más estándar, que van a ser la varianza y la desviación estándar. Así que tenemos nuestro conjunto de datos simple, que tiene menos 6, menos 4 positivo para más 6, que suma 0, si tomamos nuestro cálculo promedio, entonces vamos a llegar a un promedio de 0, porque si lo sumo, llegan a 0, si divido por 4, todavía suman 0. Así que ese va a ser nuestro punto medio, 0, nuestra desviación promedio. Esta no es la fórmula de uso estándar para este cálculo del Sprun, pero el cálculo intuitivo del que hablamos la última vez, con el simple hecho de tomar cada punto de datos y compararlo con el punto medio, puedes ver por qué sería útil porque eso nos da la diferencia desde el punto medio de cada punto de datos. Lo cual tiene sentido, porque ahora puedo pensar bien, dónde se encuentra ese punto de datos en relación con el punto medio o promedio, y esa es la parte superior de nuestra ecuación para la desviación promedio. Y luego dijimos, bueno, si sumo esto, sin embargo, siempre voy a llegar a 0, lo que significa que realmente no obtengo un número significativo si sumo estas diferencias, así que lo que puedo hacer es tomar el valor absoluto. Así que eso significa que no lo voy a hacer, no me va a importar si está por encima o por debajo, solo quiero la diferencia desde el punto medio, y luego obtenemos nuestros números de valor absoluto, y luego puedo sumarlos para obtener 20. Y luego puedo tomar esos 20 y dividirlos por el número de artículos para 1,234 de ellos, correcto, y obtengo 5. Ahora, esa es una forma sencilla, sencilla de obtener una especie de distancia promedio, estás tomando un promedio de las distancias desde el punto medio de desviación promedio. Muy bien, tenemos un pequeño giro en esto, esta es la fórmula para la desviación promedio, en lugar de tomar el valor absoluto, porque recordarás este valor absoluto, el punto es que no puedo tener estos números negativos, porque entonces sumará 0. Así que tengo que hacer los positivos, así que simplemente tomamos el valor absoluto, le está sentido, y luego dividimos por n. Pero en lugar de hacer eso, la desviación estándar va a tomar la raíz cuadrada de x sub y menos nu, que representa la media, y luego y luego dividir por n y luego tendremos que sacar la raíz cuadrada. Así que mira la diferencia aquí. Si luego tomo nuestro 5, si miro mi imagen, por cierto, esto es un histograma. Básicamente, puedes ver que tienes los datos, el punto medio es 0, y luego los datos de los números negativos del lado izquierdo y los números positivos si tuvieras que trazar solo esos 4 puntos, como en un histograma, así que ahora podemos ver la varianza y la desviación estándar. Ahora bien, ten en cuenta que ambos son útiles porque a veces la varianza nos da información que es relevante, en lugar de la desviación estándar. La desviación estándar es probablemente lo primero que te viene a la mente cuando piensas en este tipo de cálculo, para tener una idea de la dispersión de los datos alrededor, por ejemplo, de un punto central representado en lugar de un histograma con un número numérico. Pero la desviación estándar es útil para ahí es como si estuvieras obteniendo, quiero decir, si está llegando a la desviación estándar, vas a hacer la varianza, verdad, es parte de los pasos. Fíjate que la varianza se calcula con un sigma 2 al cuadrado. Y la desviación estándar a menudo estará representada solo por el sigma porque y lo veremos en un segundo. Segundo. Así que esta va a ser la varianza representada con el sigma al cuadrado. Y básicamente vamos a hacer nuestras sumas y vamos a representar esto y vamos a decir que sub 1, 2n. Así que tenemos x sub y, que va a representar cada número en nuestro conjunto de datos, teníamos cuatro números, menos mu, que representa la media. Y luego, en lugar de tomar el valor absoluto de esto como lo hicimos la última vez, vamos a elevarlo al cuadrado. Ahora fíjate en lo que hace, cuando lo eleva al cuadrado, hace lo que hace el valor absoluto. Y que elimina los números negativos porque si eleva al cuadrado los números negativos, darán como resultado números positivos. Si eleva al cuadrado los números positivos, también da como resultado números positivos. Así que eso hace lo mismo. Pero también nos da un problema en el que ahora todo es más grande, todo sea cuadrado. Y luego lo voy a dividir por n, que es el conteo, que es similar a lo que teníamos con la desviación promedio. Si nos fijamos en la desviación estándar, vamos a ir un paso más allá, todo esto está aquí. Pero ahora vamos a tomar la raíz cuadrada de todo. Es por eso que la varianza a menudo se representa con un sigma al cuadrado, mientras que la desviación estándar, solo el sigma, por lo que todo lo que está debajo de la raíz cuadrada es lo mismo. Y puedes pensar, bueno, sí, lo cuadré ahora. Así que lo sé, preferiría que ahora que tengo este gran número, si invierto el cuadrado del mismo, tomando la raíz cuadrada del mismo, y ya sabes, en esencia, entonces te van a atrapar. Pensarías que obtendrías un punto similar. Ahora, la mayoría de las veces, cuando la gente ve esto, dice, 7, 5. Bueno, ¿por qué lo cuadraría? Lo haré porque me estoy deshaciendo de los números negativos. Y podrías decir, bueno, ¿por qué no? ¿Por qué no? ¿Por qué podrías haberte desecho de los números negativos simplemente tomando el valor absoluto? Absoluto. Y entonces no tendrías que sacar la raíz cuadrada. ¿Por qué tomar la raíz cuadrada? Y luego, y luego, y luego, 7, 26. No puede ser simplemente es lo que estoy tratando de decir. No puede ser simplemente que la única razón para hacer eso es deshacerse de los números negativos, aunque si tiene esa característica, porque pensarías que tomar la raíz cuadrada aún sería más fácil si fueras a hacer eso. Así que hablaremos más sobre eso en el futuro. Pero ten en cuenta que la cuadratura tiene la capacidad de deshacerse de los números negativos, y luego tomas la raíz cuadrada y, y luego, entonces, obtienes lo que pensarías en un punto similar. Pero no es exactamente lo mismo aquí. Así que puedes comparar y contrastar lo intuitivo, lo que podrías hacer con la desviación promedio versus la varianza y la desviación estándar. Bien, echemos un vistazo a esto entonces. Así que ahora tenemos nuestro mismo conjunto de datos. Y si hiciera esto en un formato de tabla, compararía cada uno de esos conjuntos de datos más por menos la media, que llegó a cero. Así que obtengo los mismos números, porque en este caso, el punto medio resultó ser cero. Por lo tanto, la distancia siempre va a ser el mismo número desde ese punto medio en este conjunto de datos. Y luego la diferencia entre lo que hicimos esta vez y la última vez es que en lugar de tomar el valor absoluto de estos números, porque termino con ese problema, suman cero, eso no me ayuda, ¿verdad? Así que lo que quiero hacer es, en lugar de tomar el valor absoluto, los elevaré al cuadrado. Así que si los elevamos todos al cuadrado, 6 al cuadrado es 36. ¿Devecha? Así que ahora llego a un número mucho mayor que cuando tomé 6, 6, e hice un valor absoluto de 6, ¿verdad? Simplemente los hice a todos positivos. Así que 6 al cuadrado es 36. 4 al cuadrado es 16. 4 al cuadrado, más 4 al cuadrado es 16 y más 6 al cuadrado 36. Así que todos los aspectos negativos se eliminan en ese proceso, pero luego, cuando sumo estos, 36 más 16, más 16, más 36. Llego a 104 versículos aquí, a los cuales llegué a 20. Y entonces puedo decir, bueno, eso es básicamente este bitx subi menos mu al cuadrado. Y luego voy a sumar eso, y luego voy a dividir por el conteo, o n. Así que ahora voy a dividir por n de manera similar a lo que hicimos antes de la cuenta 1234 de ellos representados aquí, y así, 104 dividido por 4 nos va a dar la varianza que está representada por sigma al cuadrado 26 y luego podemos sacar la raíz cuadrada de que sacando la raíz cuadrada de 26 nos lleva a 510. Ahora ten en cuenta que si estás haciendo esto en una computadora y sacas tu calculadora de confianza, puedes cambiar tu tipo de calculadora a algo como una calculadora científica. Así que tienes, ya sabes, algunas más de estas herramientas de cálculo. Por ejemplo, si tomo este "-6 en la parte superior y digo el "-6", voy a decir negativo, y luego "-6", ahí está. Y luego tengo mi artículo cuadrado aquí. Así que podría decir que el cuadrado va a ser 36. ¿Derecha? Así que puedes calcularlo en tu calculadora. Y luego, aquí abajo, tenemos el 104, obviamente el 104 dividido por 4 nos da nuestro 26. Y luego quiero sacar la raíz cuadrada de 26, y eso está aquí. Así que llegamos a 5.09, y así sucesivamente. Así que bien, fíjense que ese número es similar, pero no exactamente igual a lo que tenemos aquí, por lo general, vamos a obtener algo un poco más grande. Si lo hiciera usando el cálculo de la desviación promedio, en lugar de tomar la desviación estándar, también obtenemos esa parada en boxes a lo largo de la carretera a lo largo del camino, que es la varianza. Es por eso que se representa de nuevo como el sigma al cuadrado y luego tomamos la raíz cuadrada para llegar a la desviación estándar. Ahora, también tenga en cuenta que en este momento estamos hablando de la población de los datos como si fuera toda la población, tiene una ligera diferencia con la fórmula cuando habla de la muestra. Así que hablaremos de esas diferencias en futuras presentaciones, si tenemos una muestra frente a toda la población. Esto, pero Excel, también puede calcularlo usando fórmulas de Excel. Y este se calcula utilizando la fórmula de Excel para la varianza y la desviación estándar de la población. Estos dos están usando fórmulas de Excel para calcular para la muestra. Así que, de nuevo, hablaremos más sobre la muestra en una presentación futura. Ahora notese, obviamente, es bueno estar en Excel y simplemente poner la función en su lugar para decir, dame la varianza, dame la desviación estándar. Y básicamente puedo sumarlos a mi conjunto de números. Pero también es útil revisar esta tabla a veces, porque entonces se obtiene una representación más visual del conjunto de datos, ya sabes, hasta cierto punto, y es posible que comprendas mejor lo que dicen estos números aquí abajo. Recuerde también que, de nuevo, de estos números, hablaremos más de ellos en futuras presentaciones, pero pueden parecer más abstractos que cuando hablamos simplemente de la media o el promedio de un conjunto de datos. Y, a veces, es útil comparar varios conjuntos de datos. Y hablaremos más sobre eso en futuras presentaciones. Ahora. Esto es menos así ahora, solo quiero volver a la pregunta de por qué usaríamos esta varianza y desviación estándar, que parece más complejo que esto. Y vimos de nuevo, la mayoría de la gente dirá, bueno, ¿por qué elevas al cuadrado los datos para deshacerte de los negativos? Bueno, ¿por qué no tomó el valor absoluto en su lugar? ¿Eso sería más fácil? Bueno, una razón matemática por la que se puede argumentar a favor de usar la desviación estándar más compleja en lugar de la desviación promedio es que si tuviera que elegir cualquier otro punto medio, me daría un número único. En otras palabras, si elijo, por ejemplo, en nuestro conjunto de datos en lugar de usar la media como punto medio, pero quiero ver la distancia desde el punto número uno. Así que uso uno en lugar de la media y que hago todo lo demás de la misma manera, correcto, tomo la diferencia de ese punto número uno y obtengo mis diferencias. Ahora, estas diferencias ya no van a sumar cero, porque no estoy mirando las diferencias desde el punto medio, estoy viendo las diferencias desde el punto de vista de que elegí una. Y luego, si tuviera que tomar el valor absoluto de esos números, aún así llegaría a 20. Correcto, todavía llegó a los 20. Y luego, si hago el resto, tomo el 20 y lo divido por 4, todavía me sale 5. Así que fíjate que no tengo un número único aquí, lo que elegí la media como punto medio, a diferencia de cuando elijo algún otro número cuando uso la desviación promedio. Entonces, si hiciera lo mismo, usando dos como mi número, en lugar de la media de cero, usaría el punto número 2 y miré la diferencia entre cada punto en mi conjunto de datos y el punto número 2, que simplemente elegí al azar. De nuevo, no sumará cero. Pero si tomo el valor absoluto de ellos, salgo a 20 y todavía obtengo 5. Y luego, si lo hago una vez más solo para recalcar el punto, si uso 3, todavía salgo a 20. Y me llevo 5. Mientras que, si hiciera el mismo cálculo, usando la desviación estándar y la varianza, aquí están mis números, elegí el punto número 1, en lugar de la media, obtengo mis mismas diferencias, pero luego las voy a elevar al cuadrado. Y llegó a 108, ese 108 va a ser diferente al 104 que obtuve cuando use la media como punto medio. Y eso, por supuesto, resultará en una diferencia, cuando divida ese 108 dividido por 4, obtienes un número diferente, que sería representativo de la varianza, excepto que usamos un punto medio diferente y entonces obtendrías 520. Así que ahora el 520 es diferente al 510 al que llegamos cuando usamos el punto medio. Así que esa es una de las razones por las que se podría decir que usamos, se obtiene un número único, se obtiene un número único. Si utilizo el punto número 2, entonces de nuevo, se aplica lo mismo. Y si lo sumo, obtengo 120. Y luego mi resultado final es 548, que no es el mismo número que teníamos cuando usamos el punto medio de cero. Así que eso es solo un argumento, porque eso surge mucho cuando intentas explicar la desviación estándar, porque la elevarías al cuadrado y tomarías la raíz cuadrada y, por lo tanto, te da un valor único, es otra razón por la que puedes decir que podría ser útil, derecha.