 Estadística y Excel una desviación estándar y datos de varianza para una población de calorías. Prepárate, respira hondo y contento durante 10 segundos con ganas de una exhalación suave y relajante. Aquí estamos en Excel. Si no tiene acceso a este libro, está bien porque básicamente lo construiremos a partir de una hoja de cálculo en blanco. Pero si tiene acceso a tres pestañas más abajo, ejemplo, ejemplo de práctica en blanco en esencia clave de respuesta a la pestaña de práctica ha sido celdas preformateadas. Por lo tanto, podría ir directamente al corazón del problema de práctica, pestaña en blanco, hoja de trabajo en blanco, pero solo con nuestros datos, para que podamos practicar el formato de las celdas dentro de Excel a medida que trabajamos en el problema de práctica. Si no tiene acceso a estos datos, es un conjunto de datos bastante largo. Por lo tanto, sería difícil simplemente escribirlo allí. Puede buscar recursos en línea para conjuntos de datos de muestra, como Kaggle.com. Vayamos a nuestra pestaña de ejemplo para tener una idea de lo que estamos haciendo. Vamos a ver los datos de calorías haciendo un tipo de proceso similar al que hemos hecho en presentaciones anteriores. Solo que trabajando con diferentes conjuntos de datos ahora y que haremos nuestros cálculos estadísticos usando principalmente funciones de Excel, luego haremos nuestro histograma de los datos. Y luego desclosaremos con más detalle, centrándonos en la desviación estándar y la varianza de este conjunto de datos. Así que vayamos a la pestaña en blanco a la derecha, voy a quitar el Kaggle a formatear toda la hoja como lo hacemos casi cada vez que ponemos el cursor en el triángulo haciendo click derecho en esas celdas seleccionadas. Y formateando las celdas vamos a la moneda, luego números negativos, vamos a hacer los rojos y entre corchetes, no quiero ningún signo de dólar, no necesitamos decimales. Vamos a eliminarlos también. Y bien, vamos a poner en negrita toda la pestaña de inicio, o lo haré no tienes que agrupar las fuentes en negrita. Creo que eso podría ser que sea más fácil para el screencast manteniendo presionado control desplazarse en un momento. Así que podemos ver un poco más de detalle. Actualmente estoy en el 265 en el zoom. Pongamos una tabla ahora mismo, tenga en cuenta, por cierto, que cuando formatee toda la hoja de trabajo, estropeó el campo fecha. Por lo tanto, el campo fecha sigue ahí, pero ahora solo voy a cambiar el formato del campo fecha para que sea una fecha. Así que voy a seleccionar la columna A y luego ir a la pestaña inicio, grupo de números dejándola caer en los números, creemos la fecha corta y eso debería convertirla de nuevo, espera, esa es la fecha normal, quiero la fecha corta. Y voy a hacer esto un poco más grande. Ahí está. Bien, mantengamos presionada la tecla control y desplácese un poco hacia abajo. Así que ahora estoy en 220 en el zoom. Muy bien, ahora voy a poner el cursor en los datos. Y vamos a ir a la pestaña insertar en la parte superior de las tablas y luego poner una tabla alrededor de estos datos, las hormigas bailarinas haciendo sudanza mágica alrededor de la mesa, creando una tabla a partir de ella que nos permite ordenar los datos por fecha, que es en lo que está ordenado actualmente. O si quisiéramos por el conteo de calorías, que podemos ir de menor a mayor. Así que tenemos la más baja en calorías aquí, en estas fechas en las que no teníamos calorías. Estábamos como muertos de hambre o simplemente no queríamos levantarnos de la cama esos días o algo así, no sé. Y luego tenemos los recuentos de calorías más altos de la Z a la A. Muy bien, tomando esos datos. Vamos a hacer una columna sedelgada. Eso es lo que pasa cuando no comes las calorías que te pones flaco y miras, mira, mira lo que pasa, te pones flaco. Así que, en cualquier caso, vamos a hacer nuestros cálculos normales aquí. Así que vamos a tener el cálculo de la media o el promedio promedio. Y eso nos va a dar la verdad sobre el conteo de calorías. Para nosotros, incluso si es malo, incluso si es malo hacerlo. La verdad son los hechos, solo los hechos aquí. Así que vamos a tomar el mínimo, tomemos el Q1, tomemos la mediana, la mediana, que podría llamarse Q2, tomemos Q3, tomemos el máximo. Y luego haremos la desviación estándar, que va a ser para la población que vamos a decir. Y eso está representado por un sigma. Vamos a poner el sigma aquí, pero luego tenemos la varianza para la población POP, no para tu padre, sino para una población frente a una muestra, porque estamos trabajando con estadísticas de población en su mayor parte en este momento. Muy bien, hagámoslo. Hagamos nuestros cálculos. Voy a hacer esto rápidamente porque lo hemos visto en el pasado. Lo estamos haciendo con este conjunto de datos, que es un conjunto de datos bastante largo aquí, no haremos un conjunto de datos un poco más largo la próxima vez. Pero puedes ver que tenemos una muestra bastante grande, y podemos hacer nuestros mismos cálculos. Y las funciones obviamente son bastante útiles para llegar a los cálculos rápidamente. Pero aún así puede ser útil desglosar en formato de tabla lo que realmente está sucediendo, debido a que esa es otra forma de ordenar los datos, otro punto de vista sobre los datos podría darnos más información. Digamos que esto va a ser igual a la media. Y solo voy a decir que toquen ahora para recoger la fórmula. Así que ahí está. Y luego voy a poner mi flecha desplegable en los datos, el baile y rodear los datos y entrar. Así que ahí está nuestro promedio, voy a hacer esto bastante rápido es igual al mínimo. La pestaña de número más pequeño, para obtener la función, mi cursor ya está en la sección para el menú desplegable de flechas. Y ahí está, por cierto, si quiero mirar el mínimo, puedo ordenar de menor a mayor. Y están esos días cero, esos días cero en los que no teníamos calorías en absoluto, memoria de hambre, pero lo que sea, y luego resuelve la causa, hombre, los cuartiles hacen los cuartiles. Y diremos que este va a ser el cuartil. Este necesita otro argumento, una coma, y le pondremos un uno, un cuartil. Y luego esta es la mediana, que podría ser la fórmula del cuartil dos o la función de la mediana tabulación, seleccionando los datos, ahí está la mediana, y luego el cuartil igual. Número tres, seleccionando los datos, esto necesita otro argumento, por lo tanto una coma, y el cuartil número tres, los tres al lado, y luego el máximo cuando alcanzamos el máximo de calorías. Así que el máximo seleccionando el O, espera un segundo, algo sucedió, este es el máximo y tengo que presionar Chef 9, podría hacer eso para que mi función esté lista para rodar, y luego seleccionar mis datos. Así que fue entonces cuando comimos un montón de calorías, aparentemente, no sé, solo estaba bebiendo, bebiendo grasa de tocino o algo así. De todos modos, entonces tenemos que la desviación estándar en este es igual al estándar, y estamos viendo los datos de la población en este punto, tomemos la desviación estándar de la población, ve y seleccionémosla. Y entonces esto será igual al estándar de la varianza para la población. Y vamos a recoger eso, vamos a hacer lo mismo para la muestra. Así que solo para recogerlo si se tratara de una muestra de desviación estándar y varianza de la varianza para la muestra. Y esto va a ser igual a la desviación estándar de una muestra. Y esto será igual a la desviación estándar de un, lo siento, esto será igual a la varianza de la varianza de una muestra var.s. Bien, ahí están todas las estadísticas, las hice bien esta vez, estas son las poblaciones de la población. Esto es para una muestra frente a una muestra. Si miro este, por cierto, el grupo de números de la pestaña inicio y agrego algunos decimales son para ver un poco de diferenciación entre los dos cálculos. Muy bien, pondamos algunos bordes azules alrededor de esto, voy a seleccionar nuestros datos. Y vamos a la pestaña insertar grupo de fuentes y presionamos el menú despegable del cubo, si no tienes ese azul, está en el lado estándar de más color y la rueda y presionamos esa rueda y está bien. Y luego iremos al menú despegable de fuentes, pondremos algunos bordes alrededor de todo esto. Pongámosle un histograma ahora. Así que tomemos nuestros datos, los datos de calorías. Inserte la pestaña hacia arriba en los gráficos superiores y presione el menú despegable hacia abajo pero no demasiado fuerte, no lo rompa y luego vaya al histograma. Así que ahí lo tenemos. Así que ahí están nuestros datos. Son datos bastante centrados un poco, ya sabes, sesgados hacia la derecha aquí, pero está nuestro formato pictórico de los datos. Y ahora, vamos a hacer nuestro cálculo de la desviación estándar usando nuestra varianza usando un formato de tabla. Así que tenemos una idea de lo que realmente está sucediendo con ellos porque son cálculos un poco más complejos. Por lo tanto, obtendremos la varianza en una variante de segundos. Ahora llego a la variación de bloqueo de mayúsculas y voy a copiar mi fórmula aquí. Así que ahí está la fórmula, la reduciré a 12 en la fuente 12. Ahora puedes escribir esa fórmula, recuerda que con la pestaña de inserción golpeando cualquier ecuación y luego usaría la tinta para que ahora puedas escribirla aquí o escribirla a mano, no escribirla aquí, ese es el punto. Y empezará a hacer tu fórmula en la parte superior. Así que voy a hacer este, naranja, también. Y vamos a hacer esto en blanco y negro arriba, para el encabezado, error en blanco y negro, bien, y luego vamos a decir que esta va a ser la desviación estándar, forma, nientes. Y lo pondremos en su lugar, haciendo ese 12 en la fuente también. Naranja en él, convirtiéndolo en naranja, es decir, eso es lo que hacemos. Eso es lo que significa naranja cuando lo anaranjamos. Y ahí está. Bien, podemos ver que estos dos están relacionados, por supuesto, porque esto, todo este pedazo aquí, para la varianza, sigma al cuadrado es lo mismo que lo que está debajo de aquí en la desviación estándar, y luego vamos a tomar la raíz cuadrada para obtener la desviación estándar. Así que vamos a hacer ese cálculo con un método más manual, que, aunque hay muchos puntos de datos aquí, sigue siendo bastante fácil de hacer. Así que vamos a copiar todo esto, voy a copiar de la columna A a la columna B, seleccionando esas dos columnas, haciendo clic derecho y copiando. Y pongámoslos aquí en la columna R, R y SR. Así que vamos a decir control V, o simplemente pegarlo, vamos a hacer una columna cu delgada, cu delgada, y luego haremos nuestro tipo de cosas estándar aquí. Así que aquí están todos nuestros puntos individuales representados por X, X y C. Así que vamos a ir desde uno hasta la cantidad de ellos que haya, es decir, N de ellos, así que vamos a decir que esta va a ser la media. Así que vamos a compararlos todos con la media. Y si estás por encima de la media, vamos a ser malos al respecto y decir que estás engordando porque está superado. Debido a que tenías más calorías, entonces el punto medio que, está bien, eso no es agradable. Así que esto va a ser igual al promedio, toma el promedio de esto. Y luego está el punto medio, la media de nuestro conjunto de datos, y luego vamos a tomar la diferencia. Diff para la diferencia. Y esto va a ser igual a las calorías de ese día frente al punto medio, el promedio. Y hemos terminado en estos días. Pero, por supuesto, estamos debajo, en los días de aquí. Porque eso es, por definición, el punto medio, y supondrías que estaríamos flotando en algún lugar alrededor del punto medio, de lo contrario, nos volveríamos increíblemente grandes o increíblemente delgados. Pensaría si estuviéramos en un lado u otro durante un periodo prolongado de tiempo. De todos modos, vamos a tomar eso al cuadrado, vamos a elevarlo al cuadrado. Así que ahora hemos hecho esta parte, y vamos a elevarlos al cuadrado, y luego los sumaremos obteniendo el numerador. Esto es igual a que el punto de datos al cuadrado es un desplazamiento de seis, la zanahoria elevado a dos elevado a dos. Y ahí lo tenemos, no es tan poderoso como Grayskull por el poder de Grayskull, sea lo que sea que eso signifique, pero aun así, es bastante efectivo. Y luego, abajo, pongamos una columna total. Y vamos a sumar estas cosas. Estoy en mis mesas. Así que tengo el diseño de mi mesa en la parte superior y las opciones de estilo de mesa. Vamos a darnos una columna total. Y luego aquí en las calorías. Sigamos adelante y tomemos el promedio, voy a recalcular el promedio solo porque podemos, y luego aquí hagamos un conteo. Así que puedo contarlos, es decir, 12.345 en las partidas, 457 partidas, que es una cantidad bastante justa de datos. Pero tan fácil de hacer y trabajar con un Excel debido a la funcionalidad que nos brinda Excel, ¿verdad? Si lo sumamos, aún debería sumar cero, porque estamos tomando la diferencia de cada punto de datos de la media, siendo la media, en esencia, ese punto medio, y luego hagamos esta columna un poco más amplia. Así que puedo, así que puedo ver cuál es el número, tenemos un número enorme porque elevamos todo al cuadrado, lo que eliminó los números negativos. Pero aun así es ahora que todo está al cuadrado. Así que tomemos eso y completemos nuestro cálculo de varianza y la desviación estándar. Así que la diferencia al cuadrado de la media es básicamente lo que tenemos aquí, o el numerador en esencia de nuestra fórmula para la fórmula de varianza. Y luego, si dividimos esto, podemos dividir por el conteo, que es n en nuestra fórmula, que calculamos aquí, el número de partidas para 57 es igual, antes de 57. Pongamos un subrayado debajo de ese grupo de fuentes debajo de la línea. Y luego tomemos la varianza de varianza. Y para que sepamos que el símbolo es un sigma al cuadrado, a menudo representado como vamos a la pestaña insertar, vamos a nuestras letras griegas, para que podamos estar tranquilos con las cosas griegas, y griegas y coptas. Y entonces tenemos, simplemente, lo tengo en mis favoritos aquí abajo, pero también está ahí. Y luego insertar, y luego está bien, y luego me gusta presionar enter, y luego volver a entrar, luego poner un 2, luego mantener presionada la tecla mayús y seleccionar los dos, o simplemente seleccionar sólo los dos. Hacer clic con el botón derecho y luego formatear la celda y convertirla en un subíndice. Así que puedo obtener esa notación al cuadrado. Quedando así, entonces haremos el problema de la división, esto es igual a este número dividido por este número, la diferencia al cuadrado de la media. Dividido por el número, ese conteo nos da la varianza, entonces queremos la desviación estándar, la desviación estándar de la población de pop, la población de datos. Y vamos a decir que esto va a ser entonces la letra entonces sería sigma, vayamos a los símbolos de la pestaña insertar y agregamos un sigma. ¿Por qué eso es lo genial que se puede hacer? Si agregas esos pequeños símbolos, la gente realmente piensa que sabes de lo que estás hablando. Te diré que, es todo lo que tienes que hacer, y la gente o la gente dirá que tus cosas son buenas, hombre. Así que esta va a ser la raíz cuadrada, la raíz cuadrada de eso. Y ahí está el 815. Si añadimos un par de decimales, la pestaña inicio, número destinado a normalizarlo con un par de decimales. Ahí lo tenemos, eso no es realmente una palabra. Algunas personas enojan porque lo uso. Pero me gusta, creo que debería ser una palabra. Y lo será en algún momento debido a nuestro uso de ella. Así que el grupo de fuentes, si presiono el menú despegable aquí, hagamos esto azul y bordeado. Así que ahí lo tenemos. Así que este es solo otro tipo de ejemplo de cómo obtenemos nuestro cálculo con conjuntos de datos bastante largos y diferentes a los salarios. Y recuerda que muchas veces lo que harías con diferentes conjuntos de datos es básicamente poder comparar, ya sabes. La varianza y la desviación estándar de este conjunto de datos posiblemente a dos conjuntos de datos relacionados, ya sabes. Si se tratara de una población frente a otra población, y eso te dará algunas ideas sobre la propagación de algunos conceptos que entraremos con más detalle en futuras presentaciones. Pero ese es el 814-59, que también calculamos aquí. El 815-59, el 814-59 y este fue el para la muestra para los datos de la muestra.