 Ejemplo de dados de distribución uniforme de estadísticas y Excel, Datos de Dios, vamos a meternos en ello con estadísticas y Excel. En realidad, veremos una nota aquí, pero hablaremos de Excel, no es necesario. Pero si tiene acceso a una nota en la que en el icono del lado izquierdo de OneNote, presentación 1500 y es distribución uniforme que la pestaña dice, también hemos estado cargando transcripciones en OneNote, para que pueda ir a la herramienta lector inmersivo de la pestaña de vista, cambia el idioma si así lo desea, pudiéndole o escuchar la transcripción en varios idiomas diferentes utilizando las marcas de tiempo para vincularlas a las presentaciones de vídeo. En presentaciones anteriores, hemos pensado en cómo podemos representar y describir diferentes conjuntos de datos, tanto matemáticamente como cálculos como el promedio, la media, la mediana, los cuartiles, etc., y pictóricamente, utilizando cajas y bigotes, así como histogramas. Los histogramas a menudo son lo que visualizamos cuando pensamos en la distribución de los datos y, a continuación, usamos términos para describir la distribución de los datos en el histograma, como sesgado hacia la derecha, sesgado hacia la izquierda, etc. En lo que nos gustaría pensar ahora es en las familias de curvas y fórmulas que podemos juntar y que a menudo pueden caracterizar ciertos conjuntos de datos, y si podemos hacer eso, si podemos representar un conjunto de datos con algún tipo de curva, algún tipo de fórmula, nos da más poder predictivo sobre ese conjunto de datos. Así que ese es el objetivo que nos gustaría tener, si podemos decir, oye, oye, este conjunto de datos parece que se puede caracterizar, al menos aproximadamente, con algún tipo de línea, o algún tipo de curva para la que tenemos una fórmula, que sería una herramienta útil. Ahora, la primera que vamos a ver en la primera familia de curva será la distribución uniforme, va a ser la más fácil, porque es básicamente una línea recta. Entonces, cuando dijimos distribuciones uniformes, es posible que se hayan imaginado que vamos a distribuir uniformes para las instrucciones de contabilidad, el curso de estadística, y van a obtener un uniforme o algo así. No, estamos hablando de una distribución uniforme como una familia de curvas, básicamente representando datos. Muy bien, vamos a pensar en las tiradas de datos aquí, para tener una idea de cómo se verá. Digamos que tenemos un tinte, y el tinte tiene seis lados. Y si tiráramos el dado mil veces, ¿y cuál sería la probabilidad de que cualquier número, ya sea un 123, hasta un 6, cuál es la probabilidad de que saliéramos, cuántos, o cuál es la probabilidad de sacar un 1 cada vez, por ejemplo? Bueno, sería uno sobre seis, que sería el 16.66, y así sucesivamente. Entonces, si lo lanzara mil veces, ¿cuál sería básicamente el valor esperado que tendrías para cualquier número, sería esto por mil, por mil? Así que esperarías que hubiera 166.66, y así sucesivamente, de cada número individual del 1 al 6, ese sería nuestro resultado visualizado en nuestra mente. Ahora, tengan cuenta que este resultado visualizado es sólo un modelo, sólo estamos creando un modelo que, con suerte, nos proporciona algo de poder predictivo. Pero, por supuesto, no es perfecto en la vida real, lo que se nos describe claramente por el hecho de que tenemos un número incalculable aquí. Así que sería imposible que nuestro modelo predictivo se convirtiera en realidad, porque no podemos, no hay forma de que vayamos a obtener el punto 6, 7 de 1, ese o dos que hemos lanzado, ¿verdad? No podemos tirar los 6 o 7 veces. Pero se puede ver que el modelo nos da poder predictivo sobre lo que pasa y cuáles son las posibilidades en el futuro. Entonces, si tomamos esos datos, y los graficamos o los graficaremos, si miro los números de los dados, hay seis números en el dado, del 1 al 6. Y si tirar el dado mil veces cada uno de esos números, esperaríamos llegar a alrededor de 1, 6, 6.67. Así que nuestro tipo de modelo perfecto que tenemos en nuestra cabeza, que es perfeccionar porque no toma en cuenta un hecho, cuento la aleatoriedad porque esto es básicamente una muestra en lugar de toda la población de tiradas de dados, que imaginamos que era como un número infinito de tiradas de dados, se vería así. Ahora, si tuviera que graficar eso en un histograma, entonces tenemos los dados del 1 al 6 y la tirada esperada, sería solo una línea recta, ¿verdad? Esperaríamos que todos ellos fueran 167 en todos los ámbitos. Y, obviamente, ahora tenemos una línea recta. Y fíjense que la línea recta, se podría decir que el uniforme, eso es lo que será la distribución uniforme, se podría decir, bueno, mira, solo hay una de esas, no es realmente una familia de curvas. Pero obviamente, si tiramos el dado por algún otro número que no sea mil veces, si tiramos el dado, ya sabes, 200 veces, esperaríamos que el resultado fuera 200 veces mayor que el punto 1666 y así sucesivamente. Así que serían 33. Así que en realidad es una especie de familia de curvas, porque la línea recta está aquí arriba, si la giramos 200 veces, tendría una línea recta en el 33. Estas son familias de curvas que son básicamente líneas rectas, que son solo líneas rectas, derechas, que son la distribución uniforme, que tendríamos. Esa sería nuestra fórmula de resultado esperado para f de x igual a c. Vamos a tener el mismo resultado porque es una ecuación uniforme, bonita y fácil. Para nosotros, nuestras predicciones son agradables y fáciles, aunque no van a ser perfectas, porque en la vida real, va a haber aleatoriedad involucrada. Ahora, si tuviéramos que aproximarnos a lo que realmente sucedería, si lanzara los dados mil veces, podrías hacer esto en Excel, y podrías hacerlo usando el generador de números aleatorios, que se vería como este aleatorio entre, y luego el número inferior sería un número superior sería 6, mi voz se quebró, solo voy a copiar. Y si copiamos eso mil veces, no creo que haya sumado los mil que solo bajé aquí. Pero si haces esto en la hoja de cálculo de Excel que también tendremos, tendrías mil números que se aproximan y que se generan aleatoriamente, ya que una tirada de dado sería aleatoria, en teoría, ¿verdad? Da 1 al 6. Así que la probabilidad de que este saliera a un 2 será de 1 entre 6, ¿verdad? Así que sacamos el 2, luego sacamos un 5, luego sacamos un 3, luego sacamos un 6, luego sacamos un 1, un 1, un 4, y así sucesivamente. Entonces, si tomamos esos datos, podríamos decir hagámoslo de esta manera, podemos decir bien, ahora tenemos los dados, del 1 al 6, tenemos la décima, las tiradas esperadas, fueron parejas, esto es lo que esperábamos que sucediera. Sucediera. Pero esto es lo que realmente sucedió. Ahora, estos datos reales los estamos sacando de nuestro conjunto de datos aquí, básicamente contando los números que están llegando. Y la fórmula en Excel se vería así, vamos a decir que es igual a contar si los paréntesis, vamos a recoger todo nuestro rango, puedes ver que baja a 1000 y Excel, y luego queremos los criterios. Así que queremos que cuentes todos los números de este rango, si tiene Q2, que representa este número 1. Entonces, si encuentra este número 1 en el rango contado, y dice que eso sucedió 182 veces. Y luego tenemos cuántos dos sucedieron. 170, 163, 164, 4, 149, 5 y 175, 6, y podemos ver que suman 1000. Lo cual tiene sentido porque lo lanzamos 1000 veces, esa es nuestra cifra. La diferencia, entonces esto es lo que esperábamos que sucediera. Esto es lo que realmente sucedió, así que hay una diferencia de 15, está bastante cerca, pero no exactamente, una diferencia de 3, una diferencia de 7 en el lado positivo, una diferencia de 3, una diferencia de 18, una diferencia de 8, y así sucesivamente. Entonces, si tuviera que trazar esto, puedo decir que este es el resultado real, ¿verdad? Así que lo esperado era una línea recta. Pero el resultado real no es exactamente una línea recta. Pero si tuviera que tratar de predecir lo que va a suceder en el futuro, es útil para mi poder usar una función básicamente de la línea recta, ¿verdad? Voy a usar si voy a decir lo que va a pasar en el futuro. Bueno, parece que esto se puede aproximar bastante a la línea recta. Por eso la línea recta nos va a dar cierto poder predictivo sobre lo que sucederá en el futuro. Si no fuera capaz de hacer eso. Si yo dijera, oye, mira, esto no parece que se ajuste a nada. Eso es lo que los números están apareciendo al azar, lo que bien podría suceder en diferentes circunstancias. 9,42. Es posible que algunos conjuntos de datos no se puedan representar con algún tipo de línea o aproximándose a una fórmula. Y si ese es el caso, entonces va a ser mucho más complejo para nosotros usar datos pasados para proyectar datos futuros en el futuro. Pero estamos diciendo, oye, mira, esto parece que se aproxima a algún tipo de curva real. En este caso, una línea recta. Entonces podemos usar la fórmula para ayudarnos a darnos algún poder predictivo de lo que va a suceder en el futuro. Fíjense que este histograma de arriba, lo hice con un gráfico de barras, y podríamos hacer el histograma también, con un histograma y Excel. Si lo hacemos con un histograma, el histograma en Excel va a intentar darnos un número superior e inferior. Pero puedes ver que hay un 1, está a un número de distancia. Así que podemos usar cualquiera de esos gráficos para, en esencia, obtener los mismos resultados. Así que si quieres comprobarlo en Excel, lo tendremos en Excel. Ahora, en Excel, si también quisieras ejecutar este experimento, este experimento varias veces y decir, bien, eso está bastante cerca, justo aquí de la línea recta. Y si lo hiciera cuatro veces? Entonces puedo hacer varios experimentos y decir, vale, van a salir. ¿Puedes hacer todos similares? Así que escribimos, una vez más, hicimos el generador de números aleatorios entre el 1 y el 6 como si tiráramos los dados mil veces, cuatro veces. Derecha. Así que, de nuevo, esto es lo que aparentemente solían hacer en las universidades, ya sabes, si trabajabas allí, tenían, ya sabes, gente tirando dados todo el día. Y son parte del trabajo del sindicato y esas cosas. Pero ahora, tenemos la computadora haciendo eso. Ya sabes, tomó mucho tiempo, pero eso es que ahora los dados están fuera de ahí, y ahora lo generamos con una computadora. Entonces, si hacemos nuestros histogramas de esta manera, puedes ver de nuevo, se aproxima a una línea recta, este es el primer resultado, este es el segundo resultado, no es exactamente lo mismo, por supuesto, porque haya aleatoriedad en ello. Pero puedes ver, todavía se aproxima a la línea recta, aquí está la tercera de las mil reglas, así que todas son las mismas. Pero todos, ya sabes, se aproximan, básicamente a esa línea recta. Y la idea, si piensas en el concepto de muestreo, sería que si tuviera que tirar esto una cantidad infinita de veces, que sería toda la población, entonces en esencia sería, ya sabes, una representación en línea recta, lo que significa que esperarías que el resultado fuera 1 sobre 6, ¿verdad? Para cada rol multiplicado por un número infinito de veces, correcto, pero como tenemos una muestra de los datos, no va a salir perfecto, pero podemos aproximarnos con nuestra fórmula. Y ese es el tipo de fórmula más fácil de aproximar, ¿verdad? Es una línea recta, podemos ver eso. 12.52 Ahora, obviamente, si podemos hacer algo similar con curvas, de las que hablaremos en futuras presentaciones que representan los datos con una fórmula más compleja, pero aún así una fórmula para que podamos hacer predicciones con una fórmula, entonces eso también sería genial y entraremos en algunas de ellas en futuras presentaciones.