 Estadística y Excel, desviación media, desviación estándar y varianza para población con datos salariales. Tiene datos, vamos a meternos en ellos con estadísticas y Excel, no es necesario, pero si tiene exceso a una nota en el icono del lado izquierdo, una nota presenta 1442, desviación promedio, desviación estándar y varianza para la población con la pestaña de datos salariales. También estamos cargando transcripciones en OneNote. Para que pueda ir a la herramienta lector inmersivo de la pestaña Ver, cambiar el idioma si así lo desea, poder leer o escuchar la transcripción en varios idiomas utilizando las marcas de tiempo para vincularlas a las presentaciones de vídeo. Versión de escritorio de OneNote aquí datos en el lado izquierdo imaginando que es información de salarios o ingresos para una corporación o negocio y presentaciones anteriores en las que nos hemos entrado en la desviación estándar. Así como la varianza como los nuevos conceptos en los que nos estamos enfocando, además de algunos de los conceptos estadísticos estándar anteriores en los que hemos estado trabajando, incluyendo cosas como la media o promedio, el mínimo, el cuartil uno, el cuartil tres, etc., recordando que la varianza y la desviación estándar tienen que ver con un intento de obtener una representación más numérica de, digamos, la difusión de los datos, como se centran y rellenan los datos en torno al punto medio, el promedio o la media. Así que aquí están nuestros datos. En el lado izquierdo, si hacemos algunos de nuestros cálculos estadísticos estándar, comenzando con una media o el promedio, ese es el que simplemente toma todos los números, lo suma y luego divide por el conteo. Si tenemos una fórmula en Excel, que es simplemente el promedio nos da el 71. Para 98, si tomamos el número mínimo, que si alineamos todos nuestros datos de menor a mayor o de mayor a menor es el número más pequeño, Excel puede darnos eso con bastante rapidez con una función minigual. Si tomamos el cuartil uno, básicamente el punto medio del primer cuartil de los datos, similar a la mediana, obtenemos el 69.8, Excel puede calcularlo con una función de cuartil. Sin embargo, necesitamos un argumento separado para obtener el número uno para representar el cuartil número uno, y luego podemos calcular la mediana, que también es el cuartil dos, es más fácil usar la función del cálculo de la mediana, que es donde ordenamos los datos de pequeño a mayor, y elegimos el que está en el medio. Y luego tenemos el cuartil tres, que es el concepto similar, pero para el último cuartil, y podemos hacer eso en Excel con un sub cálculo de tres o el segundo argumento, debería decir, hasta tres. Y luego tenemos el máximo, el número más grande en el conjunto de datos, que podemos ver aquí, es 84, porque está ordenado de arriba a abajo. Así que estas son algunas de nuestras estadísticas estándar, grandes estadísticas, pero realmente no nos dan una gran representación de la dispersión de los datos alrededor, digamos, del punto central. Ahora, si tomamos el promedio, también se puede calcular como tomar la suma de todos nuestros datos, que podríamos hacer con una función sum-confiable, dividiendo por el número de elementos, 1234, y así sucesivamente, que fueron representados por en los que podemos usar la función de conteo en Excel en lugar de contarlos manualmente. Y eso también nos daría ese 71 por 98. Ahora, ahora estamos pensando si ese es el punto medio o medio, estamos pensando en la desviación estándar y la varianza, lo que nos da un concepto de la población de los datos. Y sabes lo cerca que está del punto central. Ahora, si nos fijamos en los datos, esto va a ser un histograma de los datos, que nos da una representación pictórica de básicamente que tan cerca están las cosas de los puntos centrales. Así que recuerden, si estoy tomando el 71 498 como punto central, y miro mi histograma, el 71 está en algún lugar por aquí. Si pienso en eso como el punto focal de un bamboleo, entonces puedes ver que puedes hacerte una idea de la dispersión de los datos alrededor de ese punto, aunque es una representación pictórica, y queremos obtener una representación numérica de básicamente la desviación estándar, algo así como las diferencias promedio desde el punto medio. Y entonces podríamos decir que está bien, así que hablamos de eso, primero hablamos de eso y de un cálculo de desviación promedio, ¿verdad? Así que puedo decir que ese es el primer concepto en el que pensamos, así que hagámoslo con una desviación promedio, y luego pasaremos a la desviación estándar. Así que recuerden que con estos datos más complejos para establecer más números que el último ejemplo que teníamos, podemos decir, bien, bueno, me gustaría obtener un número que me dé una idea de la distancia desde ese punto central, ¿cómo puedo hacer eso? Bien, puedo tomar cada uno de los puntos de datos menos el punto medio o la media representada por el MU, y luego tomar el valor absoluto, porque voy a terminar con números negativos y dividir por N, veamos cómo se vería en un formato de tabla. Si pongo esto en una tabla, puedo decir, está bien, hagámoslo de esta manera. Aquí está mi conjunto de datos, aquí están mis salarios, voy a comparar eso entonces, con el punto medio, o decir, voy a comparar cada uno de ellos con eso 71 498, que calculamos con el cálculo promedio de aquí, y luego voy a obtener la distancia de cada punto de datos desde ese punto medio. Así que este es 12.000502, solo estoy restando 87.84.000 menos el 74.498, para obtener el 12.509, algunas de esas distancias serán voluntad, terminará en un positivo porque tomé 84.000 menos el 70. Pero algunos de ellos serán negativos, porque depende de que sepas si está por encima o por debajo del punto medio, eso significa que si resumo esta columna, esas diferencias, salgo a cero, siempre voy a llegar a cero. Entonces, aunque esta es una herramienta útil para decirme cada punto de datos individual y que tan cerca está del punto medio, realmente no me ayuda a resumirlos. Así que podrías pensar, primero, tomaré el valor absoluto, tal vez. Y eso me ayudará a obtener un número positivo, así que ahora todos esos números negativos entran y simplemente los hacen positivos, este número ahora representa la distancia desde el punto medio, en lugar de una distancia positiva o negativa por encima o por debajo del punto medio. Entonces, si sumo estos, obtengo 97.090. Y luego puedo tomar eso y dividirlo por el conteo, que está representado por el 51. Aquí, podría simplemente sumar, o podría contar todos estos números, todas las filas, y eso me dará, eso me dará los 1973. Así que este es el cálculo más intuitivo. Ahora, en la práctica, normalmente no usamos la desviación promedio, porque vamos a usar la desviación estándar. Pero esto nos da la primera cosa en la que pensaríamos y estuviéramos tratando de resolver esto. Veamos la varianza y la desviación estándar, estando estos dos cálculos relacionados, donde podría decir, bien, ahora voy a tomar cada número de nuestros datos menos el promedio de nuevo. Pero en lugar de tomar el valor absoluto, lo voy a elevar al cuadrado, que también tiene el carácter, el beneficio de eliminar los números negativos, pero también hace un número grande porque los he cuadrado todos. Y luego voy a dividir por N. Y eso nos da la varianza representada por sigma al cuadrado, y luego podemos sacar la raíz cuadrada para obtener la desviación estándar. Así que así es y fíjate que estos dos cálculos se pueden representar en Excel, ¿verdad?, porque podríamos hacer una función para ellos. Pero a veces sigue siendo útil hacer los cálculos básicamente, manualmente. Así que tendrías el mismo punto de partida, tomo todos mis datos en el conjunto de datos, los voy a restar o compararlos con el punto medio, la media. Y luego obtengo mis distancias desde el punto medio, positivo y negativo. Si los sumo sumando cero, es lo mismo. Pero ahora, voy a cuadrar esos elementos. Así que terminas con algunos números más grandes. Ahora, si hiciste esto con tu calculadora, es posible que desee es una calculadora científica para hacer esto, lo cual es la calculadora científica. Si tomo esto, por ejemplo, 12.502, y lo eleva al cuadrado, eso nos lleva al 156. Ahora no sale exactamente, porque estos son números redondeados en primer lugar. Así que estos números son un poco diferentes porque tengo decimales involucrados. Pero esa es la idea. Lo haremos en Excel, si quieres comprobarlo por ahí. Y si tomé el punto es si tomé un número negativo también, como un 198 negativo. Y luego tomé eso y lo cuadré. Así que eso está llegando a 39 porque, de nuevo, hay redondeo involucrado. Así que ahora puedo, puedo sumar todo eso. Y si sumo todos estos datos, llegó a un número mucho mayor, pero al menos es positivo. Y si tomo ese número y lo divido por el conteo, esta es la cantidad de filas que hay. Así que si tomo esto y de nuevo está redondeado, pero si tomo este 3, 85, 94, 98, 04 dividido por la cuenta de 51, llegamos a esto 7567643. Y luego saco la raíz cuadrada de eso. Así que esta es la varianza que podría ser útil. Y entonces voy a tomar eso y tomar la raíz cuadrada. Y eso me da el 2750. Y fíjense que el número es más alto que el de 1973, lo hicimos con un tipo de método más intuitivo. Ahora, por supuesto, hay fórmulas para esto en la fórmula de desviación estándar de Excel en Excel, sería la STD-V.P. Y esto es para la población. Esta es la fórmula de la varianza. Este es el que siento, esta es la desviación estándar para la población, no una muestra. Y luego, si quiero la varianza, puedo usar el punto pdvarr, a veces de nuevo. Es útil hacer la tabla con él, porque eso te da una mejor comprensión de lo que realmente está sucediendo. Y a veces, simplemente desplazarse por los números, también puede brindarle otro tipo de representación pictórica de los datos. Pero también puede agregar estos dos cálculos a nuestro conjunto de datos estándar y calcularlo dentro de Excel. Ahora, más adelante, hablaremos de los cálculos para una muestra, que es una fórmula similar en Excel. La desviación estándar de una muestra frente a la población sería igual a ETS, es decir, DO AS. Para la muestra, correcto, I, y así se obtiene un número diferente. Hablaremos más sobre eso más adelante. Y luego la varianza, que es var.s, es para la muestra versus p para la población, por lo que puede calcularlos en Excel. Así que profundizaremos más en la desviación estándar y la varianza en futuras presentaciones. Pero ten en cuenta que parece un número más abstracto. Recuerden, si llego a eso, la varianza de 7567643, como, bueno, que voy a hacer, ya sabes, qué, qué significa eso. Mientras que si obtengo el promedio, sé lo que eso significa, ¿verdad? Y así sucesivamente. Pero si se compara este número para este bote, este conjunto de datos para esta corporación, toda esta población de datos para esta corporación frente a otra corporación, por ejemplo, entonces, las comparaciones de los números relativos también podrían darles significado. Y volveremos a hablar, hablaremos más sobre la desviación estándar, el uso de ellas en futuras presentaciones. Pero fíjate que es un bloque de construcción estándar que tenemos que entender y calcular, aunque cuando lo comparo con el uso de algo como la media o el cuartil y ese tipo de cosas. Creo que estos son más autosplicativos e intuitivos. Y ya sabes, el concepto de la varianza y la desviación estándar requiere un poco más de reflexión para comprender realmente lo que te está diciendo y cómo podrías usarlo en la práctica.