 Estadística y Excel exageración problema de práctica de datos de inferencia estadística. Obtuve datos, pondámonos manos a la obra con estadísticas y Excel, o OneNote. En este caso, pero aún hablaremos de Excel, no es necesario que lo hagas. Pero si tiene acceso a OneNote, estamos en el icono, en el lado izquierdo presentación de OneNote 1013x Por lo tanto, puede usar la herramienta de lectura inmersiva, puede cambiarlos idiomas y así lo desea y, a continuación, poder leer o escuchar la presentación en varios idiomas diferentes utilizando las marcas de tiempo para vincularlas a las presentaciones. Versión de escritorio de OneNote aquí, nuestros datos en el lado izquierdo, midiendo las alturas de los individuos de los seres humanos en las unidades de pulgadas, si desea conjuntos de datos de práctica para practicar, le recomendamos que vaya a Kaggle.com. Si revelamos algunos de nuestros datos, nos imaginamos que se trata de individuos de la población, que tienen una mayor altura en pulgadas, por lo que el primero es de 75,15 pulgadas, 75,12 pulgadas, y así sucesivamente. Ahora, recuerde que los dos cubos principales en los que pensamos con las estadísticas son uno en el que conectamos, los cubos principales en los que pensamos con las estadísticas son uno en el que conocemos todos los datos de la población. Y básicamente estamos tratando de mostrar algunas características de esos datos dentro de la población usando nuestras herramientas estadísticas, y cuando no conocemos a toda la población. Y estamos tratando de tomar una muestra de la población para ver si podemos aplicar nuestras herramientas estadísticas a la muestra para inferir lo que es cierto sobre toda la población. Ahora, cuando pensamos en ese segundo grupo, cuando estamos tratando de tomar una muestra para inferir lo que está sucediendo en toda la población, es útil hacer algunas pruebas en las que ya conocemos a toda la población. Y luego vamos a actuar como si no conociéramos a toda la población y hacer nuestras pruebas de muestreo, para ver si nuestras técnicas de muestreo nos proporcionan o no resultados que van a ser representativos de toda la población. Y si lo hacen, entonces podríamos tener más confianza en la aplicación de ese mismo tipo de herramientas estadísticas cuando no conocemos a toda la población. Así que vamos a imaginar que estos datos en realidad representan toda la población de alturas que estamos viendo, podría ser una población para, ya sabes, una ubicación en particular o algo donde tenemos todos los datos de ese lugar. Ahora, en realidad, este conjunto de datos cuando ejecutamos el problema de práctica es bastante extenso. Pero no copiamos todo el conjunto de datos aquí, porque sería demasiado largo. Así que este es en realidad un conjunto de datos más largo, que se representa aquí, esto es solo un poco del conjunto de datos para que podamos tener una idea de lo que estamos haciendo. Pero la idea es que toda la población, podemos, por supuesto, ordenar este conjunto de datos, si estuviera en Excel. Por lo tanto, podemos ver fácilmente el número más bajo y el número más alto, por lo que vamos de menor a mayor, pero eso probablemente no nos va a dar tanta variación de lo que queremos saber sobre el conjunto de datos. Por lo tanto, nuestro tipo típico de cálculo sería el promedio o la media. Entonces, para calcular el promedio o la media, básicamente podríamos sumar matemáticamente todos los números y luego dividirlos por el número de números, 1234, y así sucesivamente. Anexado, podemos usar la función promedio, simplemente tomando el promedio de toda esa columna de números, lo cual es bastante bueno y útil en Excel. Recuerda que la mediana es la que está en el medio, al igual que Rocky, el entrenador del boxeador dijo, ves tres de ellos por ahí, no sabes cuál es el número representativo, intenta golpear al que está en el medio, golpea al que está en el medio, eso es lo que es la mediana. Y entonces podríamos hacer eso con una fórmula en Excel y Excel elegidala que está en el medio por nosotros, ni siquiera tenemos que hacer eso. Y eso es genial. Y luego la función max que dice podemos obtener el número más grande de la población. Entonces, si tomo toda esta población y uso la función max, entonces simplemente me daría el número más grande y el min me daría el número más pequeño. Y hay una buena fórmula de Excel, que es igual a hombres para obtener la fórmula más pequeña. Así que estas son solo las herramientas estadísticas estándar. Es bueno conocer las fórmulas de estas herramientas estadísticas. Estas son, ya sabes, tipos básicos de fórmulas. Entonces, si tomáramos un histograma de estos datos, se vería así. Ahora recuerde, estos datos en realidad representan un grupo más grande de números que los que se representan en el lado izquierdo, un grupo bastante extenso de datos para darnos un histograma bastante bien poblado. Toto y está formateado como básicamente esperaríamos cuando estamos midiendo cosas. A menudo en la naturaleza, ¿verdad? Si estás midiendo cosas en la naturaleza, a menudo tienden a tener la mayoría de ellas, ya sabes, en este punto medio, y luego básicamente disminuyen. Así que esperarías ver una forma como ésta. Así que es posible que haya algunos valores atípicos aquí, pero la mayoría de la población está en el medio, eso va a ser cierto con muchas cosas que medimos en la naturaleza, como la altura de los seres humanos. Y ese va a ser nuestro conjunto de datos. Así que ahora que tenemos este conjunto de datos, queremos practicar el pensamiento en, bien, que pasaría así, que pasaría si no conociera a toda la población y quisiera tomar una muestra, y luego y luego, y luego ver si la muestra que tome va a ser representativa de que puedo tomar la inferencia de la muestra y aplicarla a toda la población. Así que hay dos objetivos en los que queremos pensar aquí. Una de ellas es estadísticamente, ¿cómo funciona eso teóricamente? Y dos, si pusiéramos esto en nuestra herramienta de Excel. ¿Cómo podemos usar las herramientas de Excel para ayudarnos a practicar estos problemas de práctica? ¿Qué tipo de herramientas podemos usar en Excel, y ahora pensaremos en ellas teóricamente? Y luego puedes hacer los problemas de práctica en Excel y realmente introducir estas fórmulas allí. Así que una cosa que podemos hacer es decir, ay, hay una fórmula en Excel, que es, esa es una fórmula aleatoria. Así que pude generar números aleatoriamente con esta fórmula en Excel. Así que esto es igual a R a Nd, y entre paréntesis y nada en el medio, nos dará un decimal, pero ese decimal es bastante largo. Entonces, si rebelo tantos decimales, es un número muy largo. Y luego, ahora tengo este número generado aleatoriamente. Así que fíjate en que, entonces podría decir, voy a poner este número aleatorio, copiar esta fórmula, y una tabla al lado de mis datos, los mismos datos que estaban aquí, están en un orden diferente ahora, pero el mismo conjunto de datos, ahora tengo una herramienta generadora aleatoria a la izquierda, y luego, si ordeno el generador aleatorio, entonces ordenará, barajará nuestros datos de altura. Así que podemos entonces que es una simulación de tomar un grupo aleatorio de números. Ahora, esta celda aleatoria de aquí también se recalculará. Cada vez que hacemos clic en él, básicamente, hacemos clic en él. Así que cada vez que hago algo, se reorganiza, lo que nos permite básicamente usar esta herramienta para barajar aleatoriamente el orden de nuestros datos de altura, porque recuerden, que si simplemente tomar a mis muestras de datos de altura de toda una población, tendría mi conjunto de datos en el orden de cualquiera de los dos cuando tomé la muestra, derecho, o podría ser por el nombre de la persona. Y lo que quiero es que la muestra, en orden, cuando estoy tratando de ordenar la muestra sea de mayor a menor o de menor a mayor, o algo así. Pero si estoy tratando de tomar una muestra aleatoria de los datos, que va a ser un componente clave, cada vez que intentamos obtener una muestra de datos, para crear una inferencia a partir de esa muestra, entonces necesito barajar aleatoriamente todos los datos. Así que esta es una forma en que podemos tomar todos los datos que tenemos y mezclarlos aleatoriamente. Y, obviamente, en la vida real, tenemos otro tipo de problemas en términos de, bueno, como tomarías una muestra aleatoria para medir la altura de las poblaciones, cuando muchas personas no vienen al consultorio del médico para medir su altura, no te dirán su altura real, o blah, blah, y todo eso hablaremos de ese tipo de cosas más adelante. En este momento, solo queremos pensar en ese concepto desde un punto de vista estadístico, en una especie de método teórico, y entraremos en más detalles más adelante, y matemáticamente de esto, de lo que pasa si tenemos la población completa. Ahora queremos tomar una muestra aleatoria de esa población y ver si podemos obtener números que sean representativos usando esta técnica, ¿verdad? Y luego nos ocuparemos de todos los problemas de la aplicación de esta técnica, ya sabes, y el mundo real. Muy bien, entonces, entonces, porque este de aquí, es, es que esto siempre va a seguir barajando al azar, puedo usar esto como mi herramienta generadora de azar, porque estos van a seguir barajando cada vez que los toque. Así que puedo copiar estas dos celdas y pegarlas aquí, pero pegarla 123 pegar solo los valores, y luego el porque entonces no tendré las fórmulas. Así que la clave es que estos tienen las fórmulas r igual a rand, y esto no tiene la fórmula. Es solo un número codificado, como lo llamamos, lo que significa que es solo un número acerca de una fórmula, para que luego podamos ordenarlo. Así que ahora, una vez que lo hemos ordenado, podemos tomar la muestra de solo la parte superior, tantos porque se han barajado aleatoriamente usando el generador de números aleatorios. Entonces, si tomamos, si tomamos una muestra aleatoria, entonces, por ejemplo, podemos, podríamos tomar la primera, creo que esto es 10, correcto, acabamos de tomar las primeras 10, que es solo una muestra aleatoria, porque las barajamos, y podemos, entonces podemos tratar de analizar, ya sabes, esa muestra. Podríamos tomar el promedio de la muestra usando simplemente nuestra fórmula promedio. Bueno, eso no era lo que quería revelar, están usando nuestra fórmula promedio aquí. Así que este es el promedio de la muestra, tal vez que tal vez quiero ver, y lo que recordarán es que el promedio fue para la población de 70, o 6799. Así que esto equivale a 68. Un poco más o menos, el promedio de nuestra muestra de sólo 10 de ellos, que es una muestra bastante pequeña, en este caso salió, ya sabes, bastante cerca, si comparo cada una de estas muestras con el promedio que vimos. Así que este es el promedio real de la población, esta es la muestra. Ahora, ten en cuenta que, por ejemplo, si estuvieras tomando una muestra de alturas en una población, recuerda, sabemos algo sobre las alturas y una población como lo sabemos con la mayoría de los tipos naturales de cosas que son similares a la altura. Y es que esperamos que tenga este tipo de relación con la mayoría de las alturas que han estado dentro del punto central, y luego menos personas que tienen alturas más altas y alturas más bajas, esperamos que ese sea el caso. Y si ese es el caso y el tipo de datos que estamos viendo, si tuviera que elegir, por ejemplo, sólo un individuo, entonces es probable que incluso ese individuo vaya a estar en algún lugar aquí, no es muy probable que ese individuo esté muy lejos. Aunque podría suceder. Podríamos haber actuado, podríamos haber elegido al azar, ya sabes, el centro de los lacros o algo así. Derecha. Y de repente, tenemos este enorme sesgo de las alturas. Pero incluso si sólo elegimos a una persona, podría ser que elegimos a una persona que estuviera exactamente en el promedio, que es. Sabes, no lo hubiéramos sabido, por supuesto, porque no lo sabemos, porque el punto aquí es que no conoceríamos a toda la población. Pero es más probable que elijamos a alguien incluso con una persona en el rango sólo por la naturaleza del conjunto de datos. Si elegimos a alguien al azar. 12.44. Ahora, fíjense que incluso si elegimos a alguien aquí en la cola, una persona muy alta o una persona muy baja, si sólo tomamos a dos personas, entonces es probable que vayamos hacia el medio. Porque no es probable que vayamos a recoger a dos personas, dos personas que están muy lejos en cada cola, ¿verdad? No es probable que vayamos a elegir a dos jugadores de baloncesto y una muestra aleatoria que resultó ser pivots, ya sabes, de, ya sabes, eso sucedió dos veces. 13.15. Por lo tanto, tomar el promedio de dos que normalmente harías tenderá hacia el medio. Esa es la idea. Entonces, si tomamos más de dos, es probable que eso de tomar el promedio de más de dos nos vaya a atender hacia el medio. Por lo tanto, cuanto más grande sea nuestra muestra, será aleatoria. Incluso si tomáramos algunos de los valores atípicos, cuando tenemos una población que generalmente está poblada de esta manera, en particular, entonces es probable que vayamos hacia el medio, esa será la idea. Ahora bien, por supuesto, tenemos preguntas que van a surgir en ese momento de, bueno, ya sabes, cuántas personas necesitamos para elegir en orden? 13.57. Y luego, cuántas personas necesito elegir para estar bastante seguro de que estoy al menos dentro de un cierto rango y esas son preguntas más técnicas de las que hablaremos más adelante. Pero en este momento, sólo conceptualmente, esa es, por supuesto, la idea de que elegimos al azar a más personas, entonces vamos a tender hacia el número medio real de la población. Normalmente, ese es el concepto que intentamos aplicar. Entonces, si veo esto aquí, por ejemplo, este fue el que tomamos en la muestra, este es el promedio de la población. Por lo tanto, la muestra fue más alta que el promedio del punto 3.9, esta es la segunda persona que elegimos de la muestra 6.675, esta es la población real. Así que fíjate que estos dos se anulan entre sí. Este era mucho más pequeño que la población que este era más alto, pero los dos se anulan entre sí. Esta, si la viera, era la muestra, esta es la población y la muestra frente a la población. Así que puedes ver que, uno pensaría que se anularían entre sí. Ahora, ese no tiene por qué ser el caso, si solo eliges a 10 personas, podrías haber elegido al azar a 10 personas que están por encima del promedio de estudiantes posible. Pero es probable que vaya a ser así, si en realidad se seleccionan al azar, que se intienen hacia el medio. Y cuánta más gente, si tenemos más gente en la muestra, uno esperaría que solo estadísticamente, sería más probable que tendiéramos hacia el medio. Eso no significa, por cierto, que cada vez, como si hiciera una muestra de 20, en lugar de una muestra de 10. Que cada vez que la muestra de 20 va a estar más cerca de, si tomo el promedio de la muestra de 20, que va a estar más cerca que el promedio de la muestra de 10, por ejemplo, eso no es podría ser que la muestra de 10 fue perfectamente elegida, tomé la muestra de 10. Y resultó ser completamente representativo del punto medio y de la propagación de toda la población, ¿verdad? Y la muestra de 20, seleccionada al azar, se desvió aún más. Pero, de nuevo, la idea es que cuánta más gente, más probable es que tengas los datos que van a ser representativos de toda la población. Así que esa va a ser la idea en la que nos vamos a basar, fíjate que es un Excel, podríamos aplicar este concepto. Y como si quisiera tener muestras más grandes, y quisiera, quisiera hacer múltiples muestras, varias muestras de 100. 16, 36. Bueno, en Excel, puedes reflejar esto, puedes imitar esto haciendo esto varias veces, ¿verdad? Podría decir esto, haré lo mismo. Pondré mi generador de muestras aleatorias, tal como lo hicimos aquí, haremos nuestro generador de muestras aleatorias, simplemente copiaré eso. Acabo de copiar eso aquí. Y luego podemos barajarlo de nuevo. Así que ahora este tiene la fórmula de Rand, el generador aleatorio, y luego puedo seguir ordenando por ese generador aleatorio que me da una generación aleatoria constante de los números, los apps de todo el conjunto de datos, no sólo la muestra. Y luego podría hacerlo varias veces. Bien, ahora tengo 23456. Ya sabes, 7, 8, como, creo que hice como 10 de estos. Tengo un montón de estos generadores aleatorios apilados uno encima del otro. Y entonces yo podía, yo podía tomar, tomar esa información. Y digamos que este es un conteo en el que quiero tomar una muestra de uno a, que subía 100. Ahora observe que estos generadores aleatorios, me detuve, en realidad están bajando todo el camino para todo el conjunto de datos. Pero solo copié un poco solo para una nota. Entonces, estos, el conjunto de datos sería mucho más largo en el problema de práctica, que verás si trabaja en Excel si desea trabajar esto en Excel. Pero luego vamos a tomar este conjunto de datos, simplemente copiaré, luego, después de haber barajado los datos, voy a copiar todos los datos de altura para cada uno de estos. Simplemente copiaré todos los datos de altura y luego los pegaré aquí. Y puedo hacer eso en Excel, copiar todas estas celdas no hallacentes a la vez, por lo que puedo copiar todos los datos después de que se haya embarajado, puedo pegarlos aquí. Y luego tengo 11 en este caso, conjuntos de datos generados aleatoriamente a partir de nuestros datos. Y lo haría, los datos reales serían mucho más largos que 100, simplemente puedo eliminar, recortar todo después de 100. Y luego habré elegido básicamente 11 conjuntos de datos generados aleatoriamente, cada uno con 100 puntos de datos dentro de él. 1857. Y eso puede ser, de nuevo, una buena herramienta para usar dentro de Excel cuando estamos tratando de entender cómo ayudar a lo que está pasando. Así que podemos trabajar con números más grandes de lo que normalmente la gente es capaz de hacer cuando aprendes estas cosas. Como en un salón de clases, lo que realmente puede ser útil cuando estás tratando de resolver algo, cuando cuando tomé estas cosas y no era tan aplicable en ese momento o no era tan eficiente, ya sabes, agregué que no era tan yubiquí para eso. 1926. Así que no era tan popular en ese momento. Así que tuvimos que imaginar estas cosas. Mientras que ahora puede simplemente completar los conjuntos de datos y obtener una comprensión mucho mejor si ejecuta esto. 1939. Y, claramente, también tiene ejemplos prácticos. Pero ahora tenemos estos, estos números generados y ahora he tomado tamaños de muestra de 100 en lugar de 10. Entonces, si tuviera que tomar el promedio, por ejemplo, de los 100, los 100, la muestra de 100, llegué esta vez a 68, 1, 1, todavía no va a ser exacto, verdad, 6784, 60, 779, 68, 15. Este es el promedio de la muestra que es trajimos. Y podríamos comparar eso con el promedio, el promedio real de la población que calculamos primero. Ahora fíjate en Excel, entonces este número, esta información ahora se da horizontalmente. 2026. Es posible que quiera rellenar eso verticalmente ahora, porque eso podría ser útil para mi para luego comparar, podría gustarme verlo de manera vertical. Así que podría copiar esa venta. Y luego pégalo en la parte superior. Pero entonces, y luego transponer la décima y la Y. Así que eso es algo que practicaremos haciendo en Excel. Entonces, si desea trabajar esto en Excel, también puede hacerlo. Así que ahora lo tenemos en una columna vertical. Y puedo compararlo si quiero, con el promedio, como recordarán, este es el promedio real. Así que ahora lo que tenemos aquí, no estoy comparando cada número en cada muestra con el promedio, como lo hicimos la última vez, eso es lo que hicimos aquí. Donde tomé, tomé cada número de los datos de la muestra, cuando sólo teníamos una muestra de 10. Y comparé eso con el promedio real, la media, la mediana o el número promedio o el número medio de aquí, estamos tomando muestras de 100. Y luego tomé el promedio de las muestras de 100. Así que ahora tenemos 1, 2, 34, 5, 67, 7, 5, 67, 89, 10, 11 muestras de 100, que tomamos el promedio de la derecha. Así que ahora tenemos una diferencia de sólo el punto o uno entre el promedio de la muestra de 100 para la primera muestra y el promedio real de la población. Por lo tanto, es de esperar que estén mucho más cerca, porque estamos tomando el promedio de una muestra de 100, en este caso, en lugar de los números de cada población individual. Así que ahora los tienes, pero sigue actuando de manera similar. En eso, esperaríamos estas 11 muestras de 100. Si los comparamos y contrastamos para que también se cancelen entre sí, para que podamos aplicar el mismo tipo de concepto. Y cada uno de ellos está mucho más cerca, ya sabes, que nuestros puntos de datos individuales aquí y ellos y luego ahí. Entonces, cuando tomas la aplicación, el total sólo está desviado por 67. Por ejemplo, si tomo el promedio de todos los promedios de las 11 muestras, ¿verdad? Entonces se esperaría que obtuvieramos 67 9876 frente al real. Si saco los decimales un poco más, no es exacto, pero se está acercando bastante a la población. Y eso es más o menos lo que cabría esperar. Dado que ese es nuestro concepto general, cuando estamos tratando de inferir de algo más pequeño que la población a toda la población. Y es que, si podemos tomar una muestra aleatoria, si obtenemos una muestra aleatoria más grande, en general, se podría pensar que eso va a conducir a una mayor precisión de herias. Podría llegar a un punto de rendimiento de crecientes, y de eso hablaremos más técnicamente más adelante. Pero esa es la idea general, vamos a tomar muestras aleatorias y cuantas más muestras aleatorias tengamos, más probable es que sea representativa de la población. Ahora, incluso podríamos hacer histogramas de esto. En este caso, tomé un histograma sólo de la muestra de 11. Así que esto tiene 100, 100 muestras que tomamos de la población. Así que estamos midiendo las alturas de los individuos, seleccionamos al azar a 100 individuos. Y luego hicimos un histograma, es decir, ¿cuántos de esos individuos están dentro de 63.82 a 65.32 pulgadas? ¿Cuántos de esos individuos están entre 65.32 y 66.82, y así sucesivamente? Recuerden, nuestro punto medio aquí, el promedio de toda la población es 6.799. ¿Derecha? Así que en algún lugar de aquí, para que podamos hacer esto es el ahora este es un histograma de los datos de muestra 10. 24.27. Lo mismo, tomamos al azar a 100 personas, pero las barajamos al azar. Así que esperaríamos que, vamos a tener un tipo de formato similar, pero no va a ser exactamente el mismo. 24.41. A pesar de que usamos la misma técnica porque seleccionamos al azar un nuevo grupo. Y fíjate que cuando comparas estos histogramas, tienes que tener cuidado con el número de cubos y la numeración de los cubos aquí. Así que este comienza en 6.253 porque fue proporcionado por Excel Excel hace esto con bastante facilidad si lo desea, pero si desea ajustar esta columna para una mejor comparación o esto, el eje X, puede ajustarlos. Y luego este es para la muestra 9. Así que aquí tenemos lo mismo, pero acabamos de tomar la muestra de 9 100 100 participantes. 25 horas y 21 minutos. Y en este caso, para que te hagas una idea de los histogramas, porque tomamos un tamaño de muestra bastante decente, 100 están empezando a ser algo representativos, ya sabes, está mirando más hacia la forma de, ya sabes, toda la población, ya sabes, que es toda la población que estamos viendo aquí. Ahora, fíjate que lo más fácil que podemos comparar cuando miramos esto suele ser el promedio también, así que si miro esto con mi punto medio, también navegamos, pero cuando estamos haciendo esto en la práctica, también queremos saber cuál es la difusión de los datos. Puede la muestra ayudarnos a decir eso y cómo, y qué tan seguros estamos de los resultados y eso nos lleva a una especie de preguntas más técnicas en las que profundizaremos en futuras presentaciones.