 Estadísticas y desviación estándar de Excel, medición de la propagación, obtención de datos, vamos a meternos en ello con estadísticas y Excel, introducción, objetivo general, algo así como nuestra declaración de misión, enfrentar el desafío de tomar una lista de números y estructurarlos de una manera que ofrezca significado. Entonces, si tenemos una larga lista de números, queremos poder resumir esos números de una manera que podamos extraer algún significado de los datos usando dos tipos principales de herramientas, resúmenes numéricos de los datos, así como resúmenes pictóricos de los datos. Resúmenes numéricos de los datos, incluidos nuestros cálculos estadísticos comunes, como la media, o el cuartil medio uno, la mediana, el cuartil dos y el tres, y así sucesivamente representaciones pictóricas de los datos, incluyendo cosas como nuestra caja y bigotes o diagrama de caja, así como histogramas. Y en esta sección, nos centramos más en las medidas de dispersión o dispersión de datos que se basan en nuestras medidas de centro. En otras palabras, muchos de nuestros cálculos estadísticos estándar. Nos centramos en nuestras medidas de centro, siendo las dos más comunes la media o media, y la mediana, ahora queremos centrarnos más en la dispersión de los datos alrededor de ese punto central, haciéndolo no solo con una representación visual, como un histograma o una caja y bigotes, sino con una representación numérica, como la varianza y la desviación estándar. Por lo tanto, esta conferencia se centra en los métodos y principios cuando se trata de datos de población completos. Tenga en cuenta que cuando observamos los cálculos de propagación, siendo los más comunes la varianza y la desviación estándar, hay ligeras diferencias cuando se habla de toda la población, a diferencia de cuando se habla de una muestra. Y aquí, vamos a empezar hablando de toda una población en futuras presentaciones, luego entraremos en la muestra. Así que la medición de la tendencia central, así que nos metimos un poco en esto en secciones anteriores, así que recapitularemos esas tendencias centrales y luego pasaremos a las medidas de propagación. Así que tenemos la media o el promedio, el tipo de cálculo más común, el más famoso, la mayoría de las veces, cuando las personas intentan resumir datos con un número, buscan la media o el promedio. Entonces, la definición, la suma de datos dividida por el número de los elementos de datos, así que vamos a resumir todos los datos divididos por el número de elementos. A menudo se denota con una barra X en la parte superior que X con una barra en la parte superior o un mu, que se parece a una u es la letra griega mu tiene una interpretación física como el punto de equilibrio de los datos. Por lo tanto, si miráramos un histograma y pusiéramos un punto de apoyo debajo de él y equilibráramos los datos sobre él como un tambaleo de balancín. La media es que el punto de equilibrio se ve afectado significativamente por los valores atípicos. Entonces, si tuviéramos valores atípicos, como vimos con algunos de nuestros datos salariales, si luego agregamos el salario del CEO, que fue como un millón o millones de dólares, entonces eso podría tener un impacto o tendrá un impacto en la media. Mientras que cuando miramos la mediana, la definición, el número del medio en una lista ordenada, por lo que si enumeramos nuestros números de menor a mayor, elegimos el que está en el medio, ahora tenemos la mediana, nuestra resistencia a los efectos de los valores atípicos, uno de los beneficios de la mediana es que el gran valor atípico no va a tener un gran impacto en la mediana, como a menudo lo hará con la media o el promedio. Muy bien, pasemos a la dispersión, dispersión y resumen de cinco números. Así que echamos un vistazo al resumen de cinco números, que está relacionado con la caja y los bigotes o los diagramas de caja en secciones anteriores nos dan una idea de la propagación. En otras palabras, un enfoque simplista para entender la dispersión es el resumen de cinco números, simplemente vamos a tomar los datos y desglosarlos bien, tomaremos el punto más pequeño de los datos, tomaremos el primer cuartil de los datos, tomaremos la mediana de los datos, el número medio, el tercer cuartil y el máximo. Así que este es un concepto similar, ya que simplemente tomar la mediana, el número medio y el conjunto de datos y dividirlo un poco más que simplemente tomar el número del medio, tomaremos el número más pequeño, tomaremos el primer cuartil, el primer 25%, luego la mediana, que es el segundo cuartil, el tercer cuartil y el máximo. Entonces, si solo tienes esos cinco números, obtienes una visión pequeña representación de una especie de diferencial. Y si miras un histograma, por ejemplo, e imaginas esos cinco números, podrías decir, bien, tengo una idea de la dispersión de los datos. Sin embargo, existen limitaciones en cuanto a la cantidad de concepto de Sprat que obtienes con este resumen de cinco números. Así que queremos agregarle otra representación numérica, que va a ser la varianza y la desviación estándar en última instancia. Por lo tanto, este resumen de cinco números no da una idea refinada de donde se encuentran todos los datos. Así que te dan un borrador si hay, es un buen resumen, una buena herramienta, pero probablemente queramos más herramientas para entrar en esa dispersión de los datos. El histograma ofrece información visual sobre la distribución y dispersión de los datos. En otras palabras, como hemos visto en las secciones anteriores aplanadas, con bastante detalle, cuando miramos los histogramas, obtenemos una buena representación visual, puedo, puedo ver este resumen de cinco números en el histograma. Y podría decir, bien, si también calcular a la media, el punto de apoyo sería la media. 6.4 Y entonces puedo tener una idea de donde se encuentran estos cinco números en nuestro histograma. Por lo tanto, el histograma es una gran herramienta para tener una idea intuitiva de la propagación de los datos. Sin embargo, también nos gustaría tener más herramientas para obtener la distribución numérica de los datos. Y eso va a ser, en última instancia, una vez más, la desviación estándar y la varianza. Pero antes de llegar allí, primero tratemos de pensar esto de una manera más intuitiva, lo que también haremos en los problemas de práctica. Así que podrías decir, oye, mira, si quiero más números que este resumen de cinco números, ¿para tener una idea de la dispersión de los datos, que podría hacer desde una perspectiva intuitiva? Podríamos hacer algo así como una desviación promedio, que es un trampolín para llegar a lo que se usa con más frecuencia en la práctica, desviación estándar y la varianza. Así que recuerda, el punto promedio, si miro mi, mi histograma es el punto focal, en el que hay un punto parejo si piensas en esto como un bamboleo. Entonces, si quiero obtener mi diferencial, podría decir, oye, mira, porque no tomo cada uno de los puntos de datos representados por x aquí, x sub y es igual a 1 o 2n, todos los conjuntos de datos toman cada punto de datos, restan mu, que representa la media o el promedio. Entonces, si tomo cada punto de datos en mi conjunto de datos menos el punto de apoyo. 7.31 El punto medio, el promedio representado por mu, voy a obtener la distancia desde el punto medio de cada punto de datos. Ahora, si tomo eso, lo que va a suceder es que si sumo todos esos datos, van a sumar 0, porque algunos de estos van a ser más altos y otros van a ser más bajos. Y la propiedad del promedio significa que vamos a terminar con 0 si tengo números positivos y negativos. Así que podrías pensar que lo siguiente que hay que hacer es tomar el valor absoluto. Y eso significa que estamos tomando la distancia desde cada punto de datos hasta el promedio, pero no me importa si es más alto o más bajo que el promedio, no estoy usando positivos y negativos, solo estoy mirando la diferencia, ya sea la diferencia, ir a la derecha o ir a la izquierda más arriba o más abajo, solo la distancia. Y luego voy a tomar esa distancia y dividirla por el número de unidades, y eso sería lo más intuitivo a lo que podríamos llegar si lo reflexionáramos. Por lo tanto, una forma intuitiva de medir la dispersión de los datos es observar que tan lejos está cada dato de la media. 8.35. Por lo tanto, cada dato de la media representada por Mu, luego tome el valor absoluto de la distancia de cada dato del valor absoluto medio, tome el promedio de esos valores dividido por N dividido por N, la distancia promedio de la media es una medida de dispersión potencialmente útil, no la medida más comúnmente utilizada. Entonces, aunque esto conduce a las medidas más utilizadas, la desviación estándar de la varianza no es la más utilizada, podrías usarla, pero no con la que probablemente trabajarás la mayor parte del tiempo, profundizando en la dispersión. Así que ahora tenemos la definición de varianza y desviación estándar, cuantifica que tan dispersos están los números de la media. Así que ahora estamos pasando de la fórmula de la desviación promedio a la varianza y la desviación estándar. Así que puedes ver las similitudes, vamos a entrar en las similitudes y más detalles entre la desviación promedio tomando el valor absoluto, mientras que la varianza es el cuadrado, y luego tomando la desviación estándar es solo tomando la varianza, que es todo lo que está debajo de aquí, y luego vamos a tomar la raíz cuadrada de la misma. Así que estos dos están básicamente relacionados. La varianza es una especie de trampolín para llegar a la desviación estándar, por lo que la varianza a menudo se representa por sigma al cuadrado, desviación estándar, simplemente sigma. Así que la varianza, vayamos a ella paso a paso denotada por ese al cuadrado, o sigma al cuadrado de la letra griega sigma promedio de la diferencia al cuadrado de la media. Así que vamos a decir similar a lo que teníamos con la desviación promedio, vamos a tomar cada uno de los puntos y restarlo de la media, lo mismo que hicimos antes, nos da la distancia de cada punto a la media, 10-30. Pero en lugar de tomar el valor absoluto, vamos a elevarlo al cuadrado. Ahora, el cuadrado tiene la misma propiedad de eliminar los números negativos, lo cual necesitamos hacer, de modo que podamos tomar la distancia promedio, sin embargo, también la eleva al cuadrado, lo que significa que vamos a terminar con números mucho más grandes, ¿verdad? Así que ahora vamos a elevarlo al cuadrado haciendo todo positivo, pero también haciéndolo al cuadrado y luego dividiéndolo por n. Y eso nos va a dar la variación. Ahora, la varianza es una especie de número abstracto, porque va a ser un número muy, muy grande. Pero en sí mismo, especialmente cuando comparamos diferentes conjuntos de datos, como los salarios en los EU con los salarios en otras partes del mundo, puede ser un factor revelador, a menudo, con fines comparativos, aunque cuando lo miras en sí mismo, puede parecer un número que no te da mucho valor. Pero entonces el siguiente paso sería la desviación estándar. Así que ahora simplemente estás tomando lo que tenías para la varianza y tomando la raíz cuadrada de la misma, transformando la varianza, que representada por sigma al cuadrado, a sigma, la desviación estándar. Así que exactamente lo mismo, excepto que ahora estamos tomando la raíz cuadrada. Así que es como si lo elevamos al cuadrado y luego tomamos, luego eliminamos el cuadrado tomando la raíz cuadrada de la misma manera que no vas a llegar al mismo número que obtuvimos con la desviación promedio. Pero puedes ver un tipo de proceso similar aquí. Y que con la desviación promedio, tomamos el valor absoluto para tratar el problema de los números negativos aquí. Lo elevamos al cuadrado y luego básicamente sacamos la raíz cuadrada. Muy bien, y hablaremos más sobre por qué podríamos usar esto, que parece más complejo que la desviación promedio en un segundo. Entonces, la raíz cuadrada de la desviación estándar de la varianza. Así que simplemente tomamos la varianza y luego tomamos la raíz cuadrada de la misma para obtener la distancia promedio que los puntos de datos son de la media. Por lo tanto, la distancia media desde la media, los valores serán mayores y el conjunto de datos es mortal, muy disperso y menor si los datos están cerca unos de otros. 12.38. Así que, de nuevo, estos dos números a menudo parecen un poco más abstractos. Pero si estás comparando diferentes conjuntos de datos, se hace evidente, porque vas a decir, bueno, si la desviación estándar es mayor, esperarías más dispersión en los datos desde el punto medio de la media, si es más pequeña, se esperaría que los puntos de datos fueran más compactos alrededor de ese punto medio. Por lo tanto, se ven afectados por valores atípicos. Entonces, si hay un gran valor atípico en el conjunto de datos, observe que estamos comparando con la media el punto medio. Por lo tanto, si la media se ve afectada por valores atípicos, se podría pensar que también se daría el caso de que tanto la desviación estándar como la varianza también se verían afectadas por valores atípicos. Así que tenemos que tener eso en cuenta cuando estamos lidiando con valores atípicos. Básicamente, la raíz cuadrada de la distancia media al cuadrado desde los puntos de datos hasta el significado. Nota para las muestras, n-1 se utiliza como denominador para tener en cuenta los grados de libertad. Así que estamos tratando con una población aquí, puedes ver una fórmula similar cuando se trata de la desviación estándar, pero en el denominador, tienes n-1. Esto se debe a que es una diferencia entre tomar la desviación estándar de toda la población, donde tenemos todos los datos de toda la población frente a una muestra, donde es una muestra de datos de la población. Hablaremos más sobre eso en futuras presentaciones. En este momento, en esta sección, generalmente nos centramos en los datos que imaginamos que son toda la población. Muy bien, volvamos a esta pregunta de por qué se elevaron al cuadrado las diferencias. Así que volviendo a la pregunta de por qué no usamos nuestra desviación promedio, si mi problema es que cuando tomo cada punto de datos menos el punto medio o la media, eso da como resultado números negativos. Y necesito deshacerme de los números negativos. Entonces, ¿puedo resumir las diferencias con respecto a la media? ¿Por qué no tomar el valor absoluto en lugar de elevarlo al cuadrado? Y luego, en esencia, sacando una raíz cuadrada de la misma. Y una de las razones es que la media de la población, entonces un valor único que minimiza la suma de las diferencias al cuadrado. En otras palabras, tiene la característica de que va a tener un número único. Así que mostraremos esto en uno de nuestros problemas de ejemplo. Pero cuando se le pregunta a usted por qué elevamos los datos al cuadrado? 15-2. La mayoría de la gente te dirá qué haces eso, porque eso elimina los números negativos y necesitas deshacerte de los números negativos. Pero entonces la pregunta, por supuesto, es, bueno, porque no simplemente tomas el valor absoluto, porque eso también elimina los números negativos y es más fácil porque no tienes que elevarlo al cuadrado, y luego tomas la raíz cuadrada, y en matemáticas, normalmente, queremos que las cosas sean lo más fáciles posible, eliminando cualquier paso en exceso. De modo que lleguemos al tipo de fórmula más simple que podemos aplicar a una situación particular. Así que uno pensaría que tiene que haber una razón por la que haríamos algo que es más complejo. Y básicamente, si tomáramos algún punto focal que no sea el promedio aquí, por ejemplo, y usara solo otro número como punto medio y lo comparáramos con él, terminaríamos con el mismo número cuando tomo la desviación promedio. Mientras que si tomo este método, la desviación estándar, obtengo un número único, cuando uso el promedio en este, en esta ranura, a diferencia de algún otro número que también elegí. Así que puede que no sea completamente necesario entender para hacer los cálculos, pero esa pregunta surge a menudo. Por lo tanto, es útil obtener una comprensión intuitiva que trabajará un problema de práctica relacionado con eso. Implicaciones y aplicaciones, comparación de la dispersión en diferentes contestos. Así que fíjate que una vez que tienes estos, estos números, si tenemos que tener los conjuntos de datos en comparación con la realidad real, para extraer significado de los conjuntos de datos. Así, por ejemplo, si estamos tratando con salarios y grandes corporaciones en diferentes países, y tuviéramos los conjuntos de datos para estos diferentes países, y estuviéramos midiendo algunas de nuestras herramientas estadísticas, como los puntos centrales, la mediana y la media, así como la dispersión, la desviación estándar y la varianza, podría darnos algunas implicaciones sobre las diferentes estrategias de incentivos y compensación de los diferentes países. Derecha. Podríamos, podríamos sacar conclusiones de ese conjunto de datos. Pero, por supuesto, necesitamos conocer los contestos de los conjuntos de datos. Para llegar a esta conclusión, necesitamos saber que sus conjuntos de datos sobre el salario relacionado con una empresa frente a otro país que podría estar en el país podrían tener diferentes estrategias en torno a la compensación. Y luego, por supuesto, cuando obtengamos los datos, posiblemente podamos sacar conclusiones de esa naturaleza. Por lo tanto, la inferencia de significado, si bien la estadística proporciona herramientas valiosas, si la aplicación y comprensión del contexto que aporta un significado más profundo los datos deben interpretarse dentro de su contexto. Ahora, fíjense, también, cuando tratamos con datos dentro del contexto, inevitablemente también vamos a estar lidiando con algún tipo de política en torno a ellos, ya sea política corporativa u otra, ya sabes, política gubernamental, o todo el mundo tiene, ya sabes, sucesos que están involucrados. Y eso a menudo, de nuevo, lleva a la gente a recurrir a la vieja cita de, ya sabes, mentiras en las estadísticas, verdad, como si las estadísticas tuvieran la culpa si hay algún tipo de datos engañosos. Así que tenemos que ser capaces de representar adecuadamente el contexto porque, de nuevo, no es culpa de las estadísticas, las estadísticas son solo los números, son las estadísticas. Si el contexto en torno a las estadísticas está siendo tergiversado, entonces tenemos que llegar a la tergiversación de las estadísticas del contexto, al igual que lo haríamos si la gente tergiversara algo con palabras, verdad. El problema no son las palabras. Si la gente está usando palabras, vistificando palabras inapropiadamente, inventando palabras nuevas, diciendo palabras que significan una cosa y actuando como si significaran otra, no es culpa de las palabras, las palabras no tienen la culpa aquí. Es la gente la que miente con las palabras, lo mismo ocurre con las estadísticas. Así que tenemos que tenerlo en cuenta. Sólo hay una herramienta. Así que resumen. La media y la mediana, aunque útiles, no nos dicen nada sobre la amplitud de los datos. Así que recuerda que la mayoría de las veces esos primeros números de tendencia central son los que miramos en la mediana y la media. Pero también va a ser muy útil conocer la dispersión de los datos que podemos visualizar con un histograma, pero también con una representación más numérica. 19-27. Un histograma da una buena idea visual de la distribución, pero no una numérica resumida. Así que el histograma es genial. Pero también nos gustaría tener una representación numérica, el resumen de cinco números, podría decirse, y el diagrama de caja asociado dan una idea de cómo se distribuyen los datos, pero a veces pueden ser engañosos. Haremos algunos ejemplos para demostrarlo. Así que podrías decir, oye, el resumen numérico de cinco meses me da una buena imagen de la dispersión de los datos hasta cierto punto. Pero en realidad mostraremos un ejemplo para mostrar donde se queda corto a veces cuando tenemos dos conjuntos de datos muy diferentes, que en realidad tan como resultado el mismo resumen de cinco números y el mismo gráfico de caja y bigotes también. Por lo tanto, la desviación estándar es una medida numérica de aproximadamente qué tan lejos están los datos, en promedio, de la media. Entonces, cuando miramos esa desviación estándar, recuerda, esa es la idea, tienes el punto medio, la media, el punto focal, si estás mirando el histograma y estás tratando de pensar en la distancia promedio desde ese punto focal con el cálculo de la desviación estándar. Ahora, recuerda que la desviación estándar y la varianza pueden ser términos un poco más abstractos. En otras palabras, cuando pensamos en la media o en la mediana e incluso en el resumen de cinco números, los datos en sí mismos suelen ser suficientes para que comprendamos lo que nos dicen sobre los datos hasta cierto punto, mientras que cuando entramos en la desviación estándar y la varianza pueden ser un poco más abstractos. Por lo tanto, trabajar a través de problemas de práctica y usar diferentes conjuntos de datos y, de nuevo, tener una idea del contexto suele ser útil, especialmente en un término como la varianza, por ejemplo, puede parecer un número muy abstracto, pero puede ser un término útil cuando comparamos diferentes conjuntos de datos. Así que trabajaremos algunos problemas de práctica en esta sección y continuaremos con estos conceptos en secciones futuras.