 Estadísticas y Excel ejemplo de datos de calorías de distribución normal tienen datos. Vamos a meternos en ello con estadísticas y Excel, no es necesario. Pero si tiene acceso a una nota cuando el icono de lado izquierdo de una nota de presentación 1632 tabla de ejemplo de calorías de distribución normal. También estamos cargando transcripciones en OneOut. Para que pueda ir a la herramienta lector inmersivo de la pestaña ver, cambia el idiomas y así lo desea. Poder leer o escuchar la transcripción y varios idiomas diferentes que se vinculan a las presentaciones de vídeo con las marcas de tiempo de la versión de escritorio de OneNote aquí y presentaciones anteriores. Hemos estado viendo cómo podemos representar diferentes conjuntos de datos utilizando cálculos matemáticos, como la media o el promedio, los cuartiles, la mediana, la moda, así como con representaciones pictóricas como la caja y bigotes como el histograma. El histograma es la herramienta principal que solemos imaginar cuando pensamos en la propagación de los datos. Y podemos usar términos para describir la dispersión de los datos en un histograma. Al igual que está sesgado hacia la izquierda, los datos están sesgados hacia la derecha. Luego pensamos en líneas y curvas que se pueden representar con fórmulas que pueden aproximarse a diferentes conjuntos de datos dependiendo de las circunstancias. Si podemos aproximar un conjunto de datos con una línea o curva que tiene una fórmula, nos gustaría hacerlo. Eso sería genial, porque nos da más poder predictivo sobre lo que sea que represente el conjunto de datos. Observamos diferentes líneas, curvas que podrían tener una fórmula relacionada con ella y que podrían representar cosas de la naturaleza real en la vida real. Incluyendo la distribución uniforme, los puntos de distribución binomial en la distribución, la distribución exponencial. Ahora, continuando con una de las más famosas, por supuesto de todas, la distribución normal o la curva de campana, recordando. No todos los conjuntos de datos se ajustarán a ninguna de estas distribuciones, que podrían ser un conjunto de datos demasiado caótico para ajustarse a una línea o curva simple que tenga una ecuación para él. Sin embargo, hemos observado en la naturaleza que muchas veces las cosas se ajustan aproximadamente a estos patrones. Y si podemos encontrar uno que lo haga, entonces la fórmula y la curva pueden ser útiles con la curva de campana. Hemos pensado en muchas cosas en la naturaleza, como las alturas, los pesos, etcétera, que a menudo se ajustan a una forma de curva de campana. Entonces, lo que normalmente queremos hacer es pensar en lo que estamos viendo. Si lo que estamos viendo se ajusta a una de estas distribuciones, podríamos probar los datos para ver si ese es realmente el caso. Y luego podríamos trazar la curva para darnos más poder predictivo. Esta vez, vamos a ver las calorías. Ahora, si estás mirando los recuentos de calorías, si estuviéramos rastreando nuestros recuentos de calorías, por ejemplo, esperarías que siguiera algún tipo de distribución normal intuitivamente, porque pensarías que mi conteo de calorías tendría que estar en algún lugar bastante estable. Y no estar yendo demasiado en el extremo alto o bajo en un momento dado, dado que nuestro peso tiene que mantenerse algo constante. Entonces, una vez que tenemos nuestros datos, podemos ordenarlos y poner una tabla a su alrededor, lo que haremos en Excel, podemos ordenarlos por la fecha, o podemos ordenarlos de menor a mayor, de mayor a menor. Este actualmente se está ordenando de mayor a menor. Entonces, que va a ser diferente acerca de este conjunto de datos, algunos de los ejemplos que hemos tenido en el pasado son que debido a que las calorías son una unidad de medida bastante pequeña. Entonces, vamos a encontrarnos con este problema de si vamos a poner los recuentos de calorías en cubos, para que podamos comparar mejor nuestro recuento real de calorías con lo que vamos a trazar cuando tracemos los recuentos de calorías. Así que esto va a ser un poco diferente en ese sentido a lo que hemos visto antes con el trazado de la información de la curva de campana para las calorías. Así que nuestros datos están a la izquierda, vamos a empezar con el tipo de cosas normales que hacemos, esto se ajusta a una curva de campana. Bueno, hagamos algunos de nuestros cálculos normales. Tomemos la media o el promedio, esta sería la fórmula en Excel para hacerlo, está en 2001-89. Eso sería sumar todos los datos y dividirlos por el número de conteos. Tomemos la desviación estándar, entonces esta sería la fórmula para Excel. Eso nos ayuda con el SPRA815. Tomemos la mediana, que sería aquella en la que ordenamos todos los datos. Elegimos el que está en el medio, y estamos eligiendo el 2062 porque este número está bastante cerca de la media, cuanto más cerca esté de la media, más probable es que se ajuste a una curva de campana. Así que eso es una indicación para nosotros de que la curva de campana podría ser útil. Aquí está la fórmula para la mediana, y luego la moda, la moda es 1776. Ahora bien, este está un poco más lejos que la media, pero sigue estando bastante cerca. Así que estamos pensando que posiblemente una curva de campana podría ser algo que se aproximaría a este conjunto de datos, este sería el modo. Recuerde que el modo es aquel en el que va a tener el número aparecer varias veces. Y podría ser más o menos útil, dependiendo del tipo de datos que estemos viendo, si estamos mirando datos, como este dato, que tiene la unidad de medida es bastante pequeña. Por lo tanto, es posible que no tengas el modo en el que aparecen varios números múltiples que son exactamente iguales a los que tendrías, si tuvieras una unidad de medida más pequeña que estuvieras mirando, entonces sería más probable que el modo representara ese tipo de punto medio. 556. Ahora, lo siguiente que podríamos hacer es trazar esta información en un histograma para ver si se parece a una curva de campana. Así que aquí hay un histograma de los datos, simplemente tomando este conjunto de datos, poniéndolo en un histograma en Excel Excel, creando los cubos de 0 a 737, 32, 740 calorías y así sucesivamente. El punto medio es aquí, que sería algo de la media que recordamos fue a 189. Así que parece que se ajusta a una curva de campana. Recuerden que el último ejemplo que vimos, porque teníamos una gran cantidad de puntos de datos. Estábamos mirando las alturas, luego los datos se veían mucho más en forma de campana. Pero si no tienes tantos puntos de datos, entonces no va a tener la forma de una campana. Pero aún esperaríamos que se viera agrupado en el medio y luego se moviera hacia los lados aquí como el aspecto y la forma de algo como un histograma. Lo que podría darnos más confianza de que esto podría ajustarse a un escenario de curva de campana para que podamos trazar una curva de campana. Así que vamos a trazar la curva de campana, vamos a decir, muy bien, vamos a tomar nuestras x, vamos a tomar nuestra p de x es que entonces vamos a calcular la pregunta es por donde debemos empezar con nuestras x. Así que la décima es que ahora estamos hablando de calorías. Así que pensarías que no puedes tener cero calorías, porque tendrían que ser solo calorías positivas, no puedes tener calorías negativas. Sin embargo, en teoría, recuerde que la curva de campana entra indefinidamente, infinitamente a la izquierda y a la derecha. Así que tomemos nuestras cuatro desviaciones estándar, recordando que si estoy tratando de trazar todos los datos, tengo una curva de campana bastante bonita que tiene toda la información en ella. Así que puedo ver las colas de la curva, cuatro desviaciones estándar serían la gran mayoría de los datos. Así que puedo hacer eso tomando la desviación estándar 815 por 4, y luego voy a restar eso del punto medio o media 2189 para llegar a 1071. Está redondeado aquí, así que no es exacto, déjame hacerlo de nuevo. 815 por 4 menos el 2089. Alrededor de 1069. Eso sí que es un número negativo. Así que podrías decir, bueno, ¿por qué no lo detengo en cero porque es bueno? Pero a veces es bueno trapar para graficarlo todo en negativo, para que veas toda la forma del billete. Y puede darte otra verificación por los porcentajes que suman posiblemente el 100%. Así que lo mantendremos por ahora solo para demostrar que, entonces, si hago esto de la otra manera, 815 por 4 desviaciones están dar más 2189. Llegamos al punto más alto de las 5448 calorías. Así que me conteó, entonces aquí, si voy a decir que está bien, vamos a contar esta cosa. Vamos a hacer X negativos. Y luego vamos a ir hasta lo positivo. Ahora he recortado algo aquí, lo tendremos todo en Excel. Pero voy a entonces entrar en lo positivo, aquí están las calorías positivas, y así sucesivamente, luego podemos hacer nuestro cálculo de P de X. Este sería el punto normal dist. O, en realidad, fíjate que está X aquí. Hicimos esto con una fórmula que también se demostrará en Excel porque lo que queremos hacer es ir de menos 1069 hasta positivo 5448. Ahora, puedes hacerlo poniendo menos 1069 menos 1068 resaltando esos dos y haciendo que Excel vea la secuencia a medida que bajas. Pero tendrías que bajar 5488 veces. Por lo tanto, podría ser más rápido usar la fórmula de la secuencia. Y lo que queremos es la suma de esos dos más uno en términos de cuántas columnas queremos, queremos o filas, no las columnas 544 u 8 más 1069. Queremos 6,517 columnas aquí. Así que eso sería 6,517 más una columna, y luego omitiendo el inicio, es por eso que tenemos dos comas, y luego el punto de partida va a ser 1069. Entonces trazará todas estas X para nosotros sin que tengamos que arrastrarlo hacia abajo. Una vez que tengamos eso, podemos hacer nuestro punto de norma ahora se ve gracioso, porque las calorías son negativas en la parte superior. Pero recuerda, mantuvimos los negativos para los ejemplos de la curva de una distribución normal para que podamos obtener las cuatro desviaciones estándar completas en el lado bajo, non datés, estamos tomando la media y la desviación estándar. Que, por supuesto, sería este número y este número en nuestra función o fórmula, y luego tenemos si si es acumulativo, no será acumulativo, o cero. Entonces, si hacemos esto hasta el final, puedes ver que está trazando esto. Ahora, si entro en los números positivos de aquí, ahora tenemos la probabilidad de que nuestro conjunto de datos, estar en 126 calorías es un punto o, a cero. Así que fíjate, cuando estamos viendo esto, estamos obteniendo números bastante pequeños, en parte debido al hecho de que, que nuestras calorías son una unidad de medida bastante pequeña. Eso significa que si estoy mirando sólo este punto de calorías de 166, entonces el porcentaje es bastante bajo, es probable que hagamos preguntas sobre rangos. Por ejemplo, ¿cuál es la probabilidad de tener 167 años o menos o algo así, que estarías tentado a resumirlo todo? Pero tendrías que usar otra fórmula, porque estamos hablando de área bajo la curva, aunque, porque esto es mucho más detallado. Debido a que estamos usando un enfoque bastante detallado aquí, obtienes una aproximación bastante buena. Si sólo fueras una suma, súmalo todo. Sin embargo, hablaremos más sobre eso más adelante, así que ahora queremos salir. Así que aquí es donde surge un problema. Queremos poder comparar esto con el recuento real. Ahora, la forma en que lo hemos hecho en el pasado es que dijimos, bien, bueno, puedo tomar mi conteo real, puedo contar todos los números de aquí, usando una fórmula de conteo de esto, ¿cuántos? ¿Cuántos puntos de datos tenemos con una función de conteo, y sale 457? Así que tenemos 457, para menos puntos de datos que el último ejemplo que tuvimos, donde teníamos como 4000 puntos de datos. Así que podría decir, voy a llevar este número multiplicado a 457. Pero vas a obtener, vas a obtener estas fracciones muy pequeñas del número porque tenemos unidades de medida tan pequeñas aquí, o la última vez. Lo que hicimos fue agrupar todos nuestros datos reales aquí en contenedores o cubos basados en el conteo de calorías. Pero eso no va a funcionar también esta vez. Porque, debido a que hay datos tan finos aquí que vamos a tener un montón de 000. Y luego, de vez en cuando, tenemos uno que aterriza en un balde. Y luego un montón de zeros, porque de nuevo, tenemos muchas unidades pequeñas del conteo de calorías. Por ejemplo, aquí estamos tomando el porcentaje multiplicado por el conteo. Así que recuerden que la cuenta era lo que era la cuenta 457. Así que si voy aquí, incluso a uno de los porcentajes más grandes, sigue siendo un número bastante pequeño. Si tomo ese 457, creo que fue por veces, y lo multiplico por este, que es el punto O, 2, 1, poniendo en formato decimal, entonces obtienes este número muy pequeño. Y este pequeño número no va a coincidir con ningún recuento de datos real, porque, por supuesto, el recuento de datos va a ser solo uno, no se puede tener menos de uno de los datos. Entonces, cuando hago coincidir eso con mi frecuencia real. Así que esta es la frecuencia real, lo que significa que los estamos viendo en términos de cubos. Y esto sería contar cuántas veces en nuestro conjunto de datos real, tuvimos un conteo que estaba por encima de 126, pero por debajo e incluyendo 127. Y obtienes un montón de 0000 para todos ellos. Y luego, de vez en cuando, van a tener uno aquí en nuestra frecuencia. Así que va a ser difícil compararlos. La última vez, cuando cuando esto cuando tuvimos diferentes ejemplos en el pasado cuando hablábamos de alturas. Por ejemplo, o el peso, entonces este conteo de frecuencia se alineó bastante bien porque no teníamos dichas unidades de medida pequeñas. Y luego pudimos tomar el porcentaje del total y dar una comparación del porcentaje del total y el p de x aquí, lo que no podemos hacer en este conjunto de datos. Lo bueno de este lado de poder tomar cada conteo de calorías en Excel, a pesar de que es un conjunto de datos bastante largo, es que cuando se suma esto, se suma básicamente bastante cerca del 100%, lo cual es una especie de doble verificación agradable. Así que lo que nos gustaría hacer es decir, bien, bueno, me gustaría agrupar estas cosas. De modo que estos p de x serían para el rango de como, cualquier cosa menor que 0, y luego todo desde 0 hasta 400. Por ejemplo, me gustaría resumir eso en un grupo. Y luego, cuando hago mi conteo de frecuencia para mis recuentos reales, podemos ponerlos en contenedores o cubos, hay un par de formas diferentes en que podemos hacerlo, cuando miramos nuestros datos reales. Que podríamos usar esto para resumir en nuestros cubos, resumirlos. Y recuerden que normalmente, no nos gusta hacer eso aquí, porque estamos hablando del área bajo la curva. Pero debido a que estamos usando datos tan finos, llegamos a un número bastante cercano. O podemos usar una fórmula, que será la fórmula intermedia, de modo que podamos, podemos usar la norma punto diste y el rango superior menos el rango inferior. Así que déjame mostrarte lo que quiero decir. Vamos a hacer un par de estos aquí, vamos a decir que tenemos las décima y las décima van a subir en 400. Así que estos van a ser básicamente nuestros cubos. Así que lo pusimos en marcha de 0 a 400, y luego de 400 a 804, y luego de 800 a 1200. Para que tengamos nuestros cubos en lugar de solo una caloría a la vez. Entonces, la frecuencia real. Si tuviera que hacer mi cálculo de frecuencia, ahora puedo hacer mi frecuencia y tener cubos que son mucho más grandes. Así, por ejemplo, este estaría diciendo todo lo que es mayor que 0 hasta incluyendo 400, en nuestro conteo real aquí de nuestros datos reales, y teníamos 5 de esos. Este estaría diciendo todo lo que está por encima de 400 hasta un incluyendo 800 de la cuenta real. Obtuvimos 14 de esos. Estamos haciendo esto con el cálculo de frecuencias. La matriz de datos es nuestra tabla a la izquierda, y en las curvas son estas bandas. Y nos da nuestros cubos, lo cual es bueno. Así que ahora tenemos números reales aquí. A diferencia de si lo hiciéramos una caloría a la vez, cuando hiciéramos nuestra frecuencia. Teníamos números casi nulos, con 1 como 1 uno que aparecía de vez en cuando. Aunque no tengo muchos datos aquí, porque no quería copiarlos por completo. Pero esto lo hacemos en Excel, si quieres comprobarlo, la suma suma 157. Lo cual es una doble comprobación de que estas curvas se están sumando porque eso es lo que fue nuestro recuento real de nuestro número real de datos. Ahora podemos tomar el porcentaje del total, y nos da algo que realmente puede ser relevante. Lo que significa que podría decir, bueno, esto va a ser 5 dividido por el total dividido por el 457. Y eso nos da 1,09. Y esto no es lo mismo, 14 dividido por el total 14 dividido por 4457 es 3.06. Si muevo el decimal dos lugares hacia arriba. Así que ahora la pregunta es, bueno, si puedo, si puedo hacer lo mismo con mi información pdx, entonces tengo algo que es comparable. Y vamos a hacer eso con una fórmula que se parece a esta. Y luego lo haremos de otra manera también. Esta es una fórmula de suma si, y está diciendo suma si, y estamos recogiendo el rango de suma, que en este caso, estamos viendo que pdx está aquí. Así que queremos que la pdx sea la coma, el criterio. Así que queremos, vamos a elegir el rango de criterios, que va a ser esta información. Y luego estamos recogiendo los criterios, tiene que ser menor o igual que este número de aquí, tiene que ser menor o igual que, en este caso, el cero. Así que eso es lo que estoy resumiendo. Así que básicamente está diciendo, toma esto si la x es menor que cero. Resume esto, así que está sumando todo hacia arriba, hacia abajo para ganar el cero extra y luego este está sumando todo. Si hiciera una fórmula similar, se vería un poco diferente. Pero esto sería sumar todo si x es mayor que cero hasta 400 inclusive. Y estaríamos retomando esta columna. Si esta área la x estaba entre cero y cuatrocientos, recuerda, por lo general eso es solo una aproximación. Pero debido a que tenemos unidades tan finas, obtenemos una aproximación bastante cercana. Dado que ese es un método que podemos usar, y ahora tenemos números comparables, ¿estoy cómo? Hay ochocientos, los datos reales salieron a 14.06 frente al 3%, que si usamos esta técnica de sumarlo, y puedo ver si esto suma 100, suma bastante cerca del 100%. Sobre estos datos, que podrían dar otra indicación de que eso me ha dado un cálculo bastante preciso. Y luego puedo tomar, también puedo hacerlo de esta manera, puedo tomar mi pdx cuenta multiplicado por el conteo, lo que significa que ahora que tengo estos números, puedo multiplicarlos por el número de recuentos que tuvimos. Así que puedo tomar este número de puntos, o, 36.036.036 veces la cuenta de 457. Y luego tenemos una segunda ronda, y ahora puedo comparar esto con estos cinco, la plata. Así que estas son las dos formas en que podemos comparar nuestros conjuntos de datos, puedo convertir, puedo convertir la diste puntos de la norma en un recuento multiplicándolo por el recuento y comparándolo con nuestro recuento de frecuencia real, o puedo convertir nuestro recuento de frecuencia real a un porcentaje, para comparar eso con los porcentajes. La única diferencia aquí ahora es que ponemos estos artículos en cubos, de modo que no estamos hablando de una caloría a la vez. La otra forma en que puedes hacer esto de los cubos, que es más precisa, sería decir que voy a tener un cubo inferior, un cubo inferior y un cubo superior desde cero, hasta 400 400 a 800, 800 a 1200, y así sucesivamente, y luego usar nuestro nóndate asti. Fórmula. Para calcularlo, este está calculando el primero, que es simplemente el punto de norma dist 2 para el para el cero. Pero para el segundo, tendrías que tener la distinción de puntos de norma de la parte superior menos la distribución de puntos de norma para la parte inferior. Así que se vería así, tendrías la diste punto de norma de la décima de la X más alta. Y luego la media, la desviación estándar, tiene que ser acumulativa, es decir, el uno menos la diferencia de puntos de la norma para la parte inferior, el cero si estás hablando de la segunda, y eso te dará que en el medio. Esto debería ser más preciso que lo que hicimos al principio sumando. Pero debido a que hicimos una unidad de medida tan fina, tenemos una unidad de medida tan fina, están bastante cerca. De cualquier manera que lo hagas, así que obtienen el punto 3, 6 a 1.0 para los 3, el 6.8 al punto 3, 6 a 1.0 para los 3 de los 6.82, así que están bastante cerca. De cualquier manera que salga este, puedes ver si lo sumo exactamente al 100%, este subió a 99.99. Bien, pasemos a nuestros gráficos. Entonces, una vez que tenemos esto, podemos envolverlos juntos, podemos poner ambos en el mismo gráfico. Creo que esto es un gráfico, la columna del porcentaje real y la columna pdx. Así que estamos viendo nuestros datos reales y los datos de la función en un gráfico, y se puede ver que se alinean bastante cerca. Lo que nos da una indicación adicional de que una curva de campana podría ser una herramienta apropiada para aproximar estos datos. Este, este es ayay, ay. Creo que este es un gráfico de barras de estos datos de aquí, probablemente debería haberlo etiquetado mejor. Estos datos de aquí, donde recogimos todo esto en este momento, esta fue una columna larga, porque recuerden, si lo hacíamos una caloría a la vez, que teníamos un montón de 106.5 unas 7 calorías en total. Entonces, si gráfico eso, incluso con un gráfico de líneas, entonces obtienes algo que se ve casi como una curva suave, ¿verdad? No se parece a esta cosa dentada de aquí. O no se ve así, esta cosa irregular, esta cosa irregular aquí porque tenemos datos tan finos que estamos usando. No, este no es el dato real. Esta es la curva que estamos trazando, pero la estamos trazando caloría por caloría. Y esa es una de las razones, de nuevo, que si piensas en el área bajo la curva, y piensas en el cálculo integral de la misma es porque tienes una pelea tan fina de las líneas, podría ser la razón por la que sí sumamos. Ya sabes, resumimos todo de esta manera. A eso llegamos a algo muy cercano si lo hiciéramos con un cálculo de la norma.dist. Así que ahí está ese.