 Estadística y Excel modelos de distribución de probabilidad y familias obtuvieron datos. Vamos a meternos en ello con las estadísticas y Excel. Entonces, introducción. En secciones anteriores, hemos estado pensando en cómo podemos describir diferentes conjuntos de datos utilizando cálculos matemáticos, como la media o el promedio, la mediana, los cuartiles y con representación pictórica, como la caja, los bigotes y los histogramas. El histograma es la representación pictórica más utilizada cuando pensamos en la propagación de los datos, como se dispersan los datos. Podemos usar diferentes tipos de lenguaje para describir el histograma y cómo se ve el histograma, como estás sesgado hacia la izquierda o hacia la derecha. Ahora, queremos dedicar más tiempo a utilizar modelos matemáticos para describir diferentes conjuntos de datos. En otras palabras, cuando estamos mirando un conjunto de datos, si podemos aproximarnos a ese conjunto de datos con algún tipo de modelo matemático, que nos dará una línea o una curva que se aproxime al conjunto de datos, eso a menudo nos dará más poder predictivo sobre lo que sea que el conjunto de datos se presente en el futuro, así que tres pilares para describir la distribución. Recuerden, cuando estamos pensando en la distribución de datos, estamos pensando en la forma de la distribución, están imaginando aquí, un histograma de un conjunto de datos, que nos dará una idea de cómo se ve la forma. Los datos están centrados en el medio, por ejemplo, o dispersos a los lados. El centro? ¿Dónde está el punto central, a menudo representado por la media, o algún otro tipo de herramienta de centrado, como la mediana, por ejemplo, y luego la difusión de los datos? ¿Cómo se distribuyen los datos? En general, ese punto central, como se distribuye, por ejemplo, la media, esas son las características que normalmente tenemos en mente cuando pensamos en un conjunto de datos, nuevamente, generalmente imaginando, por ejemplo, un histograma. La forma de los datos representa la distribución de los datos, cualquier curva puede modelar un conjunto de datos, pero algunas formas son más útiles que otras. En otras palabras, si tuviéramos un conjunto de datos, podríamos trazar esos puntos de datos en una curva o un histograma. Y cuando la mayoría de la gente visualiza o imagina una curva o histograma, lo primero que le viene a la mente es un tipo de curva en forma de campana, pero es importante recordar que el tipo de curva en forma de campana es sólo una familia de curvas, una forma posible de distribuciones. Si tomamos cualquier conjunto de datos dado, es posible que ese conjunto de datos pueda representar cualquier tipo de curva. En otras palabras, si tan sólo miraras por la ventana al horizonte y vieras esta montaña, por ejemplo, puedes imaginar algún tipo de conjunto de datos que estaría representado por la curva de esta montaña, es sólo este tipo de curva irregular. No necesariamente tiene que dar como resultado un tipo de curva en forma de campana. Y si ese es el caso, si no vemos ningún patrón en el tipo de datos que estamos viendo, va a ser más difícil para nosotros aproximar ese conjunto de datos con algún tipo de curva o línea suave, que es lo que nos gustaría hacer. Ahora, por supuesto, cuando miras las cosas en la naturaleza y miras casi cualquier cosa, a menudo habrá patrones. Y si hay un patrón, entonces podría darse el caso de que ese conjunto de datos pueda ser representado por una línea suave. Y si se puede representar mediante una línea suave, eso se puede mostrar con algún tipo de fórmula que nos pueda dar poder predictivo hacia el futuro. Así que, a menudo, la forma en que puede empezar a pensar en esto es mirar los datos reales, lo que está tratando de probar y luego trazar esos puntos de datos. Y luego, una vez que se trazan los puntos de datos, se trata de decir si esta información, algo que podría representarse mediante una curva suave. Porque la curva suave posiblemente podría ser representada por algún tipo de ecuación o fórmula, y a menudo, muchas cosas pueden serlo, y si lo son, entonces podemos usar esa representación perfecta de la línea de la chaqueta para hacer cálculos futuros. Y puedes pensar en esto como si pensaras en que fue Sócrates el que tuvo la idea de tu extremo de la caverna, y todo lo que estás mirando es básicamente una sombra que representa la realidad real de algo. Así que el caballo que estás viendo es como una sombra del caballo que representa, supongo, puedes pensar, ya sabes, en la visión de los dioses de la Ronquera, que es un caballo, ¿verdad?, cuando se mira un conjunto de datos. Eso parece estar siguiendo un patrón. Estás viendo una pequeña muestra de básicamente todo el patrón. Si pudieras extrapolar a todo el patrón de una manera similar, entonces tendrías esa curva básicamente suave que representa, ya sabes, el patrón del que tienes el pequeño fragmento, tal vez una forma de pensarlo. Por lo tanto, los salarios en una corporación, por ejemplo, sesgan la distribución. Entonces, cuando miramos las formas, estamos tratando de pensar en la forma de los datos reales. Si echamos un vistazo a los datos reales de los salarios de una corporación, podemos describir la forma como vimos en la presentación anterior. Por lo tanto, puede que no sea una curva suave, estamos viendo datos reales en el histograma. Y podemos decir que los datos pueden estar sesgados hacia la derecha o hacia la izquierda, por ejemplo. Por lo tanto, la mayoría de los empleados ganan un salario promedio o inferior al promedio, con algunos valores atípicos en la parte superior. Esa es la otra cosa que queríamos tener en cuenta de las presentaciones anteriores. Así que es posible que el CEO, por ejemplo, gane mucho dinero, lo que significa que habrá un valor atípico en el extremo correcto. Por lo tanto, es de esperar que la curva esté básicamente sesgada hacia la derecha. Y esos son algunos de los términos que usamos para describir la distribución de los datos. Así que los intervalos entre los coches en una cabina de peaje, o Adán se deterioran. Así que estos van a ser algunos ejemplos de diferentes tipos de distribuciones a las que no hemos dedicado tanto tiempo en presentaciones anteriores a las que dedicaremos más tiempo y presentaciones actuales. Cuando observamos estas situaciones de espera en la fila, como esperar en la fila de una cabina de peaje, por ejemplo, a menudo hay un patrón que podemos ver con ese tipo de representaciones, que es como una distribución de veneno, de la que hablaremos en breve. Y tiene formas características que podemos describir en términos de las características de las que hablamos en el pasado, y en este caso, sesgadas hacia la derecha. Y entonces podríamos tener distribuciones exponenciales, de las que también hablaremos. Entonces, los tipos de formas de datos, los tipos de formas de datos, podríamos describir nuestras formas de datos. Recuerde, si tenemos nuestros datos en el histograma, podríamos, por ejemplo, tener un solo histograma con picos, cuyos valores más comunes y el centro y menos valores a medida que nos alejamos. Eso es lo que podría imaginar más como una curva en forma de campana. Por lo tanto, lo describiríamos como tener más datos en el medio con un solo pico simétrico, los datos se ven iguales en ambos lados del centro. Entonces, si es simétrico, nuevamente, probablemente estés imaginando una curva en forma de campana en el punto medio. Y luego tienes los datos de forma simétrica a ambos lados de ese punto medio, pero cuando estás sesgado, ese es el término que usamos con la sesgada a la derecha del centro, lo que significa que tienes más datos que van hacia el lado derecho, y tienes esa cola que sale hacia la derecha, y luego con la sesgada hacia la izquierda del centro, lo contrario. Y podrías tener un binomio que tiene dos picos de los datos. Entonces, en lugar de tener solo los datos en el medio y luego extenderse hacia un lado, podría tener esos dos picos de los datos. Estos son solo algunos términos que podemos usar para representar los datos. Y recuerden, cuando están mirando diferentes conjuntos de datos, podrían tener estos estaban tratando de gustar si están mirando el panorama aquí, y eso representaba un conjunto de datos en particular. Podemos tratar de mirar cualquier conjunto de datos en particular y usar esos términos generales para tener una idea de lo que está haciendo el conjunto de datos. Una vez que tengamos una idea de poder describir el histograma con esos términos generales, queremos ser capaces de ver si hay una descripción matemática de los datos. Si podemos describirlos matemáticamente con algún tipo de curva o línea, eso es lo que nos va a dar más poder predictivo, eso va a ser lo que más nos va a centrar aquí. Así que vamos a echar un vistazo a algunas familias de distribuciones. Ahora bien, estas son algunas familias comunes de distribuciones. Una va a ser la distribución uniforme, hablaremos un poco más sobre cada una de ellas en el futuro y un poco aquí. Tienes los puntos en las distribuciones, tienes las distribuciones exponenciales y las distribuciones binomiales. Así que echemos un vistazo a cada uno de ellos con un poco más de detalle. Y haremos ejemplos de problemas en esta sección relacionados con algunas de estas familias de distribuciones. Así que tenemos la distribución uniforme. Y esta es la más fácil para empezar a pensar. En otras palabras, si estás pensando en un conjunto de datos, estamos tratando de decir si este conjunto de datos es el histograma que proviene de él, algo que puedo representar con una de estas fórmulas matemáticas. Y la primera es una línea recta. Así que esa sería una distribución plana. Un ejemplo sería tirar un dado justo. En otras palabras, si tiras un dado, sólo tienes del 1 al 6, que podría tirar y esperarías, entonces la distribución sería una distribución desigual entre todos los números si fuera un dado justo, lo cual sería una función fácil, f de x igual a c. Y si tuviera que hacer un histograma de él, se vería así, ¿verdad? Si tire los dados, creo que esto representa tirar los dados, como mil veces o algo así, sacando la calculadora de confianza. Entonces, si lanzo, si saco un dado, esperarías que fuera uno sobre seis, esa es la probabilidad del 16.66%, eso va a ser un 12,345 o seis. Si tiro el dado mil veces, entonces ¿qué esperarías que sucediera multiplicado por mil? ¿Esperarías tener alrededor de 167 de cada número lanzado? ¿Eso sería lo que esperarías? Ahora bien, fíjate que esto es sólo una aproximación, un modelo de lo que podría suceder en el mundo real. Y puedes verlo claramente, porque es imposible para mi sacar 166.612, porque no puedo sacar el punto 6 de un 2, ¿verdad? Es imposible. Por lo tanto, el modelo no es una representación exacta de lo que realmente podría suceder en el mundo, pero se puede ver cómoda poder predictivo de lo que básicamente esperaríamos que sucediera. Y puedes usar el mismo tipo de concepto en el que pensamos en el pasado, que era, estamos usando como una especie de muestra. Así que, de nuevo, la idea sería, ya sabes, si tienes a toda la población, si estuvieras mirando todo, no estuviéramos en la cueva, pero estuviéramos mirando todo, y pudiéramos ver la visión real de todo. Entonces tendrías esa distribución uniforme en este tipo de representación. Pero debido a que estamos tomando solo un fragmento de una muestra, entonces no lo es, entonces estamos tomando una representación imperfecta del mundo, ¿verdad? Pero en cualquier caso, tendríamos solo esta línea, sería solo una línea, y entonces, cuando tiremos los dados, no va a salir exactamente en esta línea, si tiro el dado como mil veces. Pero esto se aproximará a lo que pensamos que debería suceder. Y, por lo tanto, puedo usar solo el gráfico de una línea para predecir lo que va a suceder. Y si lo rodara menos de mil veces, entonces tendría una familia de curvas o líneas de distribución uniformes, que sería uno sobre seis. Y si lo tiraba 200 veces 200, entonces la línea estaría en 33. Así que esa sería una forma de distribución, en la que podría usar esa ecuación matemática para predecir lo que va a suceder, aunque no sea perfecta. Entonces tenemos los puntos sobre la distribución. Ahora bien, esta es la fórmula para los puntos sobre la distribución, que podrías decir, Dios mío, esto me va a matar. Esa es la distribución del veneno, pero no, no es que sea una distribución aserrada. Y no estamos demasiado preocupados por la fórmula, porque el objetivo no es que tengamos que ser capaces de leer la fórmula. El punto es que tenemos a este genio al que se le ocurrió la idea de la curva, y si vemos ciertas características en los datos, podría estar representado por un equilibrio en la distribución, que luego podemos usar funciones de Excel y demás para hacer predicciones futuras usando la fórmula. Así que no te dejes intimidar demasiado por la fórmula, pero hablaremos un poco más de ella en futuras presentaciones. La idea general es que represente eventos e intervalos fijos. Y ejemplos son los coches que llegan a una intersección. Por lo tanto, esto también ocurre a menudo en una situación de espera en la que los puntos de distribución funcionan. Y recuerden, la idea aquí es, bueno, si tengo estas situaciones, estos conjuntos de datos que estoy viendo, hay alguna manera de que pueda tener una curva suave que represente aproximadamente el conjunto de datos real, porque si puedo hacer eso con una función, me permitirá darme un poder predictivo en el futuro. Y se ha notado que en escenarios de negocios, muchas veces cuando tienes estas situaciones de espera en la fila, estás esperando en la fila en el draft flow o en una montaña rusa o los autos que llegan a una intersección que parecen seguir este equilibrio en la distribución, hablaremos más específicamente sobre las características que suelen estar presentes para que los datos sigan una distribución de poason. Entonces, si trazamos los datos de los colores que llegan a intervalos, digamos cada intervalo de minutos, contamos cuántos coches llegan a una intersección, luego y nosotros y luego gráficamos esos datos. Podemos observar que está estrechamente representado por la curva de nuestros puntos en la distribución. Y si es así, entonces podemos usar los puntos de distribución para aproximarnos a lo que realmente está sucediendo dándonos poder predictivo. Así que este es un gráfico de un equilibrio en la distribución. Hablaremos más sobre esto cuando entremos en ejemplos de Excel. Pero la idea general es que, si estás hablando de coches que van a entrar en una intersección o si estás hablando de una situación de cola de espera y cuánta gente se presenta en la cola en un intervalo de un minuto, entonces el límite superior va a ser infinito es la idea general. Ahora, en la práctica, no es, no vas a tener un número infinito de personas que se presenten a una línea en una situación dada. Pero en teoría, puede subir para siempre. Así que esto parece una curva en forma de campana, pero en realidad está sesgada hacia la derecha. Y esas van a ser las características generales de un aplomo en la distribución, va a tener esto, este sesgo algo suave y correcto. Y hablaremos un poco cuando lleguemos a problemas específicos sobre cómo cambia la forma a medida que cambias algunos de los parámetros. La siguiente es la distribución exponencial. Así representa el tiempo entre eventos. Y esto a menudo se relaciona con un punto en la distribución. En otras palabras, si estás viendo una situación de cola en espera, entonces los puntos de distribución te dicen o te hacen la pregunta de cuántos coches llegan en un determinado intervalo de tiempo, o cuál es la probabilidad de que cuántos coches lleguen en un determinado intervalo de tiempo, como un minuto, la distribución exponencial le da la vuelta a eso. Y ahora estamos hablando del tiempo que transcurre entre la llegada de personas o coches. Así que es un poco más difícil, creo, para la mayoría de la gente entender primero esa relación entre el coisan y la distribución exponencial, los ejemplos que revisamos, creo, arrojarán mucha luz sobre eso, esa relación. Así que les echaremos un vistazo en futuras presentaciones. Pero también tienes la desintegración radioactiva, es otro ejemplo común de la forma de la distribución que veremos en un segundo aquí. La relación con los puntos en los tiempos entre los puntos en los eventos sigue en una distribución exponencial. Entonces, si nota un punto en la distribución, en los eventos, el tiempo entre eventos, entonces esperaría seguir una distribución exponencial. Lo que a menudo sucede en escenarios comerciales con esas situaciones de espera de línea y se ve así. Así que ese va a ser el aspecto exponencial que vas a estar visualizando cuando estés pensando exponencialmente. Y creo que la descomposición, la desintegración del material radioactivo me viene a la mente, a menudo. Cuando pienso en esta forma, eso me da la visión de la forma más que una situación de cola en espera, que es un poco más difícil de entender al principio, pero creo que los ejemplos ayudarán con eso. A continuación, tenemos la distribución binomial. Ahora, de nuevo, no te dejes intimidar por la ecuación, queremos poner la ecuación arriba, porque, y hablaremos más sobre la ecuación más adelante. Pero la ecuación no es realmente lo importante, la idea, lo importante es que a alguien se le ocurrió una ecuación que representa una curva suave, que a menudo representa cosas que suceden en la naturaleza. Y eso nos permite, entonces, si vemos algo que puede ser representado por la curva suave, para no tener que hacer eso, vamos a tener que hacer mucho en las matemáticas porque podemos hacerlo dentro de Excel. Pero todo lo que tenemos que hacer es reconocerlo. Y luego, básicamente, podemos usar la fórmula para hacer predicciones sobre algo. Por lo tanto, esto representa el número de éxitos en un número fijo de ensayos. Así que vamos a echar un vistazo a ejemplos como las ventas realizadas en un número fijo de llamadas de ventas. Por lo general, las características de este tipo de distribución serán que tiene que haber algo que tenga un resultado de sí o no. Entonces, si estás diciendo que estás haciendo una serie de llamadas de ventas, entonces vas a tener éxito o no éxito. Es por eso que va a ser binomial, básicamente podemos decir. Bueno, si consigo una venta durante esa llamada, el éxito o no, la venta no es éxito. Si estás pensando en una situación de lanzamiento de moneda, entonces, puedes hacer un tipo de prueba similar, en la que veremos algunos ejemplos en los que etiquetarías la cara o la cruz, pero digamos que la cara es un éxito y la cruz como un no éxito. Y luego, tendríamos que saber los porcentajes de cada una de esas actividades en términos de la probabilidad de que sea un éxito o no, un lanzamiento de moneda básicamente siendo 5.050, una llamada de venta suele ser mucho menor para el éxito 10, 10% de éxito o algo así. Así que entraremos más en los detalles, de nuevo, de cuando algo en la práctica real normalmente seguirá una distribución binomial. Y si lo hace, entonces, podemos usar este concepto para hacer predicciones sobre el futuro y la importancia de los modelos matemáticos. Por lo tanto, permite el análisis cuantitativo. Entonces, obviamente, si podemos obtener un modelo matemático, recuerde, cuando tomamos un conjunto de datos, el conjunto de datos podría ser cualquier línea irregular, tal como dijimos, cuando miramos por la ventana. Es posible que no tenga ninguna, ninguna curva que pueda representar fácilmente los datos. Si ese es el caso, entonces los datos no son inútiles, podríamos usar el cálculo o usar alguna metodología compleja para tomar esos datos y extrapolarlos al futuro y posiblemente obtener algún poder predictivo de ellos. Pero si hay un modelo matemático que se puede representar mediante el cual es, que es algún tipo de línea o curva, entonces, tenemos una herramienta realmente buena y poderosa para introducir números en esa ecuación para darnos más información sobre lo que realmente está sucediendo, ayuda a hacer predicciones, ayuda y comprende un fenómeno subyacente. Entonces, si podemos, si conocemos las características de lo que entra en una curva en particular, normalmente, y vemos que algunos datos siguen a esa zanahoria siguiendo esa curva, entonces eso podría darnos una mejor comprensión sobre lo que realmente está sucediendo en el mundo. Así que la conclusión, entender la forma de los datos, es fundamental en estadística. Así que, claramente, necesitamos saber cuál es la forma de los datos que podemos usar en términos no matemáticos, lo que significa que podemos trazar los datos y usar términos como que están sesgados hacia la izquierda, están sesgados hacia la derecha, están centrados, tienen dos picos, y todo eso. Y creemos que podemos usar modelos matemáticos para proporcionar un marco para describir, analizar y predecir. Y luego podemos entrar en modelos matemáticos más técnicos y reales, no siempre algo que podamos hacer para cara conjunto de datos, no podemos hacerlo para todos los conjuntos de datos. Podemos hacerlo para aquellos conjuntos de datos en los que vemos un patrón en el que la curva se aproxima a algo que sabemos que está representado por una línea o curva, lo que sucede mucho, porque la naturaleza parece seguir patrones. Entonces, si podemos reconocerlos, entonces podemos usarlos. Por lo tanto, la combinación de forma, centro y dispersión proporciona una visión holística de los datos. Entonces, ese es el tema del curso aquí, no podemos representar datos con un solo número, típicamente, y porque realmente para representar lo que está pasando, necesitamos saber más. Y se puede resumir eso en términos de la forma, el centro y la dispersión de los datos, que podemos ver pictóricamente con un histograma y posiblemente podamos usar más cálculos matemáticos para representar esos números también. Así que podemos ser más específicos en el aspecto matemático. Si podemos hacerlo, eso sería genial.