 Estadística y desviación estándar y varianza de Excel para una población comparando dos conjuntos de datos relacionados con el peso. Obtenemos datos, vamos a meternos en ellos con estadísticas. Y si es así, no está obligado a hacerlo, pero si tiene acceso a una nota, estamos en el icono de la izquierda de la presentación de una nota 1467 desviación estándar y varianza para una población comparando dos conjuntos de datos de la pestaña de peso. También estamos cargando scripts de trenes. Por lo tanto, puede ir a la herramienta lector inmersivo de la pestaña ver, cambiar el idioma si así lo desea, poder leer las transcripciones o escucharlas en varios idiomas diferentes utilizando las marcas de tiempo para vincularlas a la presentación de vídeo de la versión de escritorio de OneNote aquí los datos en el lado izquierdo, relacionados con el peso y las presentaciones anteriores. Hemos estado pensando en como tomar nuestros conjuntos de datos, resumirlos, representarlos de manera que podamos extraer significado de esos datos utilizando cálculos numéricos y representaciones pictóricas. Cálculos numéricos, incluidos nuestros estadísticos estándar, como la media, o el cuartil medio uno, la mediana, el cuartil tres, etc. Y luego las representaciones pictóricas, incluyendo la caja y los bigotes o el diagrama de caja, así como el histograma. Ahora nos preocupamos más por estas presentaciones sobre la dispersión de los datos, el histograma da una representación pictórica muy bonita de esa propagación, la representación numérica en la que estamos trabajando es la desviación estándar y la varianza. Así que aquí están nuestros datos en el lado izquierdo, nos centramos principalmente en la información de peso aquí. También hay que tener en cuenta que no hemos incluido todo el conjunto de datos porque se trata de un conjunto de datos bastante largo. Así que sólo estamos dando un fragmento del conjunto de datos. Para dar un ejemplo del proceso, vamos a hacer nuestros cálculos estándar, que por supuesto, en un conjunto de datos muy largo se vuelve bastante tedioso. Pero usando Excel bastante fácil, calculando la media o el promedio, podemos usar la fórmula del promedio, sumando todos los datos divididos por el número de datos. Ahí está el mean, el número más pequeño de nuestro conjunto de datos en 7801. Tenemos el cuartil uno, el punto medio del primer cuartil, que podría ser esta fórmula en el punto del cuartil de Excel, EXC, pero tenemos que tener el segundo argumento que representa el cuartil uno, tenemos el sec, lo siento, el primer cuartil, tenemos la mediana, que es el segundo cuartil, podríamos usar la misma fórmula y poner un 2 allí. Pero es más fácil usar la mediana, que recogerá el punto medio, si tuviéramos que resumir los datos de arriba abajo y elegir el que está en el medio, lo que, de nuevo, podría ser bastante tedioso. Si tiene un conjunto de datos muy largo como este, o lo es en la práctica, lo cortamos aquí, el cuartil número tres, el medio del tercer cuartil. Y tenemos la misma fórmula aquí, excepto que ahora estamos eligiendo el cuartil número tres con el segundo argumento. El máximo, el número más grande en nuestro conjunto de datos en 170.92, luego tenemos la desviación estándar, ese ha sido nuestro punto de enfoque es en 1166. Es tan fácil de obtener en Excel como simplemente poner la función es igual a stdev.p.p que representa la población en lugar de punto s la muestra. Estamos imaginando que tenemos todos los datos de toda la población. En este punto, hablaremos de muestras y presentaciones futuras. La varianza es igual a v a r.p tipo de cosa similar con ap frente a la población s frente a la muestra. Y luego tenemos la desviación estándar de la muestra como nota de comparación. Así que puedes ver esas dos fórmulas aquí abajo. Si se trataba de una muestra, obtenía el punto s en lugar de un punto p de acuerdo. Si nos fijamos en nuestros datos, podemos ver que tenemos datos bastante fluidos porque se trata de un gran conjunto de datos relacionados con el peso, que es algo similar. Creo que esto vino de la misma área que teníamos con los datos de altura, donde teníamos un conjunto de datos muy grande, porque estamos tratando con algo que está en la naturaleza. Uno esperaría entonces que tuviéramos este tipo de distribución. Si tenemos una muestra muy grande, la mayoría de los elementos están en este punto central y luego básicamente se estrecha hacia ambos lados de una manera bastante uniforme. Luego tenemos la varianza, la desviación estándar y el formato de la fórmula. Entonces, aunque ingresamos la función en Excel y obtuvimos la respuesta, a veces es fácil que sea irrelevante o a veces útil hacer los cálculos y mirar los pasos a lo largo del camino, al menos, para tener una idea de lo que nos dice la función. Por lo tanto, la varianza se va a representar por sigma al cuadrado. Y aquí está la fórmula, puedes ver que toda la varianza es parte de la desviación estándar, todo debajo de la raíz cuadrada. Así que a medida que calculamos la desviación estándar, básicamente vamos a hacer la varianza a lo largo del camino. Entonces, si hacemos esto en un método más manual, pero de una manera en la que podamos ver lo que está sucediendo, podemos tomar cada uno de estos puntos de datos, lo que sería bastante tedioso porque hay un conjunto de datos largo. Pero si estás en Excel, bastante fácil de hacer, toma cada uno de esos puntos de datos y restalos del punto medio, la media, que fue ese 120-708 que calculamos antes. Esta es la distancia de cada punto de datos a la media. Ahora que tenemos todo este largo conjunto de datos, hemos recortado parte de él, pero si se suman todos, habrían números positivos y negativos. Y sumaría cero, no lo hace aquí porque solo recortamos parte del conjunto de datos. Pero recuerda que la característica aquí es que si ese es el punto medio, y tomo cada dato menos el punto medio, ya sabes, ese punto de apoyo, entonces voy a obtener que algunas de las diferencias serán cero. Una vez más, no puede ver ninguno de los números negativos aquí porque solo tenemos parte del conjunto de datos. Pero luego vamos a cuadrar los datos. Así que vamos a elevarlo todo al cuadrado, lo que elimina los números negativos y lo eleva al cuadrado. Y luego, si hacemos nuestro cálculo a continuación, estamos resumiendo esto. Recuerde que no se trata de todo el conjunto de datos, pero si tuviera todos los datos, configúrelos con algunos a esto, podría verificarlo en Excel, si desea ver el conjunto de datos completo y trabajar con el usted mismo al cuadrado de la diferencia, ahí está. Y luego vamos a dividir por el conteo, el conjunto de datos completo tenía 25 mil puntos. Entonces, si conté todas las filas del conjunto de datos completo 25 mil. Y eso nos da una varianza de 135.97. Y luego, si saco la raíz cuadrada de eso, llegamos a 1166. Así que ahí está nuestro 1166 que calculamos usando la función de aquí 1166. Pero notarás que hacerlo de esta manera te da una idea intuitiva bastante agradable de lo que está sucediendo con el conjunto de datos. Y este conjunto de datos, lo que he hecho es tomar el mismo conjunto de datos de peso. Pero luego eliminó algunos de los números en el medio, lo que dio como resultado dos conjuntos de datos que son muy similares, pero diferentes. Y la razón por la que esto podría ser útil es porque cuando miramos nuestras estadísticas aquí, observe que miramos el promedio o el mínimo, el cuartil uno, la mediana, el cuartil tres y el máximo, que nos dan una idea en sí mismo sobre el conjunto de datos. Pero la desviación es estándar y en particular la varianza. A menudo son más difíciles de visualizar para nosotros en sí mismos y a veces se vuelven más relevantes si estamos comparando dos poblaciones separadas, ¿verdad? Así que si tuviéramos dos poblaciones diferentes y tuviéramos que tomar estos dos números, entonces a veces esa va a ser una forma de ver donde podríamos usar esos números como en la práctica, como, como un tipo de número de varianza. Así que recuerda, la idea general con la desviación estándar es que cuanto menor sea la desviación estándar, menor será la dispersión que esperarías alrededor de ese punto medio, el punto de apoyo, el promedio y cuanto mayor sea el número, mayor será la diferencia. Así que en este caso, he eliminado muchos de los números como en el medio, los números que están más cerca de ese punto medio de los diferenciales. Así que eso es una especie de aumento, se podría pensar, correcto, la desviación estándar y la varianza. Así que vamos a verlo. Entonces, si miro estos dos números y comparo el nuevo conjunto de datos con el conjunto de datos anterior, llegamos a una media bastante similar o un promedio de 120,706 frente a 120,708, el número mínimo es el mismo. Eso es porque eliminé los datos en el medio. Así que todavía tenemos el mismo punto de fondo, el cuartil uno tiene como diferente pero no sustancialmente diferente. La mediana, la mitad del conjunto de datos es 124,19 frente a 127. De nuevo, diferente pero no muy diferente cuartil 336,81,34,89. Bastante cerca. Aun así, el máximo es el mismo, porque eliminé los números en el medio, por lo tanto, hay el mismo máximo, pero la desviación estándar ahora es más alta, ¿verdad? Así que ahora tengo 1,301 frente a 1,166, lo que nos da una idea de la diferencia, que podría no haber obtenido una diferencia en la diferencia entre cuando mido solo estos números en la parte superior derecha, es posible que no me hayan dado una idea de en la medida de lo posible. Una desviación estándar de posiblemente, ya sabes, más dispersos en los datos. Y lo mismo con la varianza, derecha 135,97 frente a 169,25, otro tipo de medida del SRAM. Y eso debería darnos una indicación de que haya algo posiblemente más de lo que tal vez habría captado con solo los primeros números en la parte superior con respecto a la propagación de los datos. Y luego, si miro a los que tienen la muestra, estos son solo una comparación con la muestra, también son más altos si uso esto, el cálculo de la muestra en lugar de la población. Y aquí está el histograma real. Para que puedas ver lo que sucedió aquí, eliminé muchos datos en el medio. Así que fíjate, si pienso en lo que habría pasado, como con mis números, mientras que uno pensaría que el promedio todavía estaría bastante cerca de lo que fue, porque ahora tienes estos dos lados. Eso todavía se promedia a algo que está bastante cerca de la media. Y luego observa que el mínimo y el máximo son lo mismo. Así que mínimo, mínimo, máximo, máximo son lo mismo, porque estos valores atípicos, espera hasta el final, no eliminé ninguno de ellos. Así que eso tiene sentido. Y luego, si nos fijamos en los cuartiles, están bastante cerca. Y uno pensaría que tal vez los cuartiles serían sustancialmente diferentes si hiciera esto en un conjunto de datos pequeño. Pero debido a que el conjunto de datos era tan grande, entonces, ya sabes, no lo hice, realmente no impacté muchos de los cuartiles, si solo eliges el número en el medio del primer, segundo y tercer cuartil. Porque a pesar de que eliminé una gran cantidad de datos en el medio, teníamos un conjunto de datos bastante grande. Así que aún terminas con bonitos, bastante cerca de los cuartiles más de lo que piensas. Y la desviación estándar nos da una idea. Así que podrías decir, bueno, todo esto se parece, pero luego la desviación estándar nos da una idea de que la dispersión se ve significativamente diferente, al igual que la varianza como bien, y así y obviamente, eso está representado aquí en la representación pictórica. Ahora, sólo para terminar esto, si hiciera el mismo tipo de cálculo aquí, tomé mis pesos de mi nuevo conjunto de datos donde eliminé los números en el medio, resté la media o el punto medio. Esto es el 120706. Ahora, aquí están nuestras diferencias. Y las diferencias, si las sumaba todas, sumarían cero. No los tengo todos aquí, porque era un conjunto de datos muy largo, pero aún así sumaría cero con un nuevo conjunto de datos. Y luego, si los elevamos todos al cuadrado, esta es la cantidad al cuadrado. Si sumara todas las cantidades al cuadrado, llegaría a esto. Y luego tomaría eso y lo dividiría por el conteo, que ahora sólo tengo 1999919099 en lugar de creo que eran 25000. Conjuntos de datos antes, así que hemos eliminado una cantidad significativa de datos. Que va a ser una variación de 16925 y la raíz cuadrada de eso sería 13016925 y 1301 es lo que obtuvimos aquí. 13016925.