 Estadísticas y publicaciones de Excel sobre baches de distribución y ejemplos de carreteras obtuvieron datos. Vamos a meternos en ello con estadísticas y Excel, no es necesario que lo hagas, pero si tienes acceso a una nota en el icono del lado izquierdo de una presentación de una nota 1546 publicaciones sobre distribución, baches y ejemplos de carreteras. También estamos cargando transcripciones en OneOut. Para que pueda ir a la herramienta lector inmersivo de la pestaña de vista, cambia el idioma si así lo desea. A continuación, podrá leer o escuchar la transcripción en varios idiomas diferentes utilizando las marcas de tiempo para vincularla a la presentación de video versión de escritorio de OneNote aquí y presentaciones anteriores. Hemos estado pensando en cómo podemos representar diferentes conjuntos de datos utilizando cálculos matemáticos como el promedio o la media, los cuartiles medianos, y con representaciones pictóricas como la caja y los bigotes, y el histograma, siendo el histograma la herramienta principal que imaginamos cuando pensamos en la propagación de los datos. Y podemos describir la dispersión de los datos en un histograma usando términos como que está sesgado hacia la izquierda, o está sesgado hacia la derecha, ahora estamos viendo fórmulas, que nos darán una línea o una curva, que si tenemos suerte, nos aproximaremos a los conjuntos de datos reales en ciertos escenarios con los que estamos trabajando. Si podemos aproximar nuestros conjuntos de datos con una línea o una curva, eso generalmente nos dará más poder predictivo sobre lo que sea que el conjunto de datos esté representando. En secciones anteriores, hablamos de la línea o curva más fácil, que es una distribución uniforme, ahora estamos viendo los puntos de la distribución. En un ejemplo anterior, hablamos de un punto sobre la distribución ya que se aplica a una de sus aplicaciones más comunes en entornos empresariales. 228. Al igual que hicimos con la situación de la cola de espera, en la que se puede imaginar que primero se van a contar los baches, se pueden ver los datos que se han tenido en el pasado, sobre cómo se producen los baches, y mirar esos datos. Y luego, una vez que examinamos los datos, vamos a decir, oye, estos datos coinciden con alguna curva básicamente común, ¿podemos poner una curva en su lugar que simule estos datos si podemos? 257. Eso podría ayudarnos con la toma de decisiones futuras en términos de cuánto mantenimiento podríamos querer en una carretera, por ejemplo, ahora en Excel. En realidad se pueden generar los resultados de una policía en la distribución, como si fuera un experimento aleatorio. Así que estamos imaginando que vamos a salir y en realidad vamos a cada 100 millas de carretera y contamos los baches en la carretera, o podríamos estar mirando datos pasados. 325. Eso nos da el mismo tipo de información de cuántos baches hay en la carretera a lo largo del tiempo. Entonces, si salimos y contamos los baches, entonces vamos a decir que, por ejemplo, en las primeras 100 millas, hubo 18 baches y en las segundas 100 millas, contamos 26 baches, y luego 21 baches y luego 26 baches en las 100 millas de carretera. Ahora generamos estos números a partir de Excel. 352. Pero nos lo imaginamos que esto es una simulación similar a las cartas generadas aleatoriamente de las que hablamos en nuestro ejemplo de juego de cartas o el lanzamiento aleatorio de dados o monedas. Y estos van a ser todos nuestros datos de muestra, luego podemos organizar nuestros datos de muestra en contenedores. Entonces, una vez que hemos contado todos los baches que se encuentran en cada tramo de 100 millas, entonces podemos decir que estos van a ser los contenedores en los que los vamos a poner. ¿Cuántas veces tuvimos 0 baches y el tramo de 100 millas? ¿Cuántas veces tuvimos un bache y el tramo de 100 millas? ¿Cuántas veces tuvimos 2 baches y el tramo de 100 millas y demás? Vamos a llamar a eso una distribución de frecuencias. En Excel, puede usar una fórmula, esta es una fórmula de matriz. Ahora bien, podrías pensar que puedes usar la fórmula COUNDED, podrías decir que puedo decir que es igual a COUND. Si encuentras este 0, vamos a decirle a Excel si encuentras ese 0 y este conjunto de números y creo que generamos mil números que representarían mil 100 millas. Las pruebas que tuvimos en contaron los baches cada vez que veas un 0 allí, luego dame la frecuencia dame dame el número cuéntalos. Pero el conteo no siempre funciona muy bien cuando usamos estos generadores de números aleatorios, porque a veces creo que los números no son exactos. Y así, la distribución de frecuencias, aunque un poco más elegante, y una función de matriz de derrame generalmente recoge todos los números. Así que vamos a usar eso, vamos a decir la frecuencia de la matriz, el conjunto de números, y luego la matriz BIN, voy a seleccionar todos estos números, y luego realmente derramará la frecuencia. Así que aquí abajo, tuvimos 8 baches en las 100 millas a la vez. Y en todas las cuentas de 100 millas que tuvimos, tuvimos 9 baches dos veces en las 1000, creo que lo hicimos 1000 veces en los conteos de 100 millas. Tuvimos 10 baches 5 veces, y tuvimos 17 baches 40 veces. Ahora también podemos y voy al fondo de esto, no incluy todos los datos. Pero creo que en Excel, en realidad tomamos este conjunto de datos, creo que 500. Así que estamos imaginando que tuviéramos 500 conteos de tramos de 100 millas de carretera, contando el número de baches y cada uno de esos tramos de carretera. Ahora, este número aquí representa nuestros contenedores que representan el número de baches. En teoría, podríamos tener un número infinito de baches cuando lo miramos en puntos de distribución tipo de situación. Pero obviamente, en la práctica, uno pensaría que habría algo así como un límite superior de la cantidad de baches que va a encontrar, y cuando el en cualquier tramo de 100 millas. Entonces, si tuviéramos que sumar todos estos números aquí, entonces pensarías que el total aquí abajo llegaría a 500. Porque ese es el número de conjuntos de datos. Podría haber dicho mil antes, pero creo que fueron 500. Hicimos 500 conteos. Entonces, si esto se relaciona con el número de conteos, hicimos 500. Eso es evidencia de que nuestros contenedores se han calculado correctamente. Entonces podemos tomar el porcentaje del total. Entonces, por ejemplo, ¿cuántos, cuál es el porcentaje de veces que encontramos 9 baches en nuestros 500 conteos de tramos de 100 millas, verdad? Así que puedo decir que nos encontramos dos veces que eso sucedió. Así que 2 sobre 500 nos va a dar nuestro punto 4%. Y si me desplazo hacia abajo, podríamos decir cuál es el porcentaje de probabilidad de que tuviéramos baches en 2020 y el tramo de 100 millas. Bueno, aparentemente eso sucedió 56 de cada 500 veces, parece que es un 11,2% de probabilidad de que tuviéramos los 56 baches. Así que ese va a ser nuestro conjunto de datos que podemos representar en términos de la frecuencia que cuenta, así como el porcentaje del total, que está ahí. Entonces, si tomo algunos cálculos estándar, si tomo la media del conjunto de datos, por ejemplo. La media es simplemente tomar el promedio de este conjunto de datos, por lo que la fórmula de Excel sería igual al promedio de este conjunto de datos, tenemos un número medio de 20.14. Y si tomo la varianza del conjunto de datos, así que ahora estoy mirando, este es el punto DT y Dan, As. Para una muestra y una población solo para practicar, ambos tienen todo este conjunto de datos, llegamos a 20.49. Una de las características interesantes de una distribución de paisanes que la varianza, si se tratara de una situación de veneno perfecta, sería igual a la media. Entonces, si se aproxima a la media, la varianza y la media están bastante cerca, entonces, entonces vamos a O, espera, esto podría ser como una situación de distribución de puntos en el tipo, en cuyo caso, podríamos usar una línea para representar los datos. Entonces, tenemos la media de los baches, antes de ir allí, nota, también podemos trazar los datos. Así que si gráfico estos datos, este es un gráfico de la frecuencia, así que estamos tomando la frecuencia aquí y estamos contando. Entonces, ¿cuántas veces tuvimos, ya sabes, el 16 o el 20? Ya sabes, los baches, el más alto es 50, algo 55, o algo así. Así que ese es el conteo que está sucediendo aquí, así que, de nuevo, la frecuencia representa el número de veces que sucedió en las 500 pruebas que realizamos y si nos fijamos en 20 baches, tuvimos los 56 correctos. Ese es el que va a salir, se ve un poco como un caso atípico. Y si miro, también puedo hacerlo en términos porcentuales. Así que si tomo el porcentaje, el porcentaje del total, fíjate que obtienes, en esencia, la misma forma aquí, pero ahora lo estamos viendo como un porcentaje del total. Así que eso es algo así que ahora estamos diciendo, oye, ese tipo de eso no se parece perfectamente a un equilibrio en la distribución, pero parece que podría estar un poco sesgado hacia la derecha, correcto, podría verse un poco normal, coysan, a veces parece una campana, pero está ligeramente sesgado hacia la derecha, en general, es la idea general. Así que estamos pensando que tal vez sería un posán. Así que ahora podríamos decir, ¿y si tomar a ese medio? Así que ahora estoy tomando la media de que llegamos aquí, y las millas de 100. E hice una curva real usando los puntos de la distribución. Así que esto sería como la representación perfecta, a diferencia de nuestra aproximación con nuestro conjunto de datos y no fuera una línea perfecta, ¿verdad? Así que puedo tomar mi conjunto de datos aquí, como si estuviéramos viendo cuántas veces aparecerían los baches que representan 0 baches y 100 millas, un bache, dos baches y 100 millas. Y luego, si hago un equilibrio en el cálculo, que es esta fórmula que apunta a la diferencia de puntos, la x representa el 0, el 1, el 2, y así sucesivamente, que la media no va a ser el 20.14 que obtuvimos de nuestro ejemplo. ¿Y entonces, quiero que sea acumulativo? No, no quiero que sea acumulativo, quiero que me des el porcentaje de probabilidad de cada uno de estos números, ¿cuál es el porcentaje de probabilidad de que tengamos 9 baches en el punto de las 100 millas, 2, 7? Y luego puedo comparar esto con lo que realmente obtuvimos aquí. Ahora, recuerden, los puntos en la distribución no nos dan una frecuencia real, el número de baches que nos ha dado básicamente, la probabilidad del número de baches correctos, que es esta columna que representa esta columna. Así que puedo comparar esta columna, entonces, si resto esta columna a esta columna, aquí están nuestras diferencias. Así que puedo ver esas diferencias y decir, ¿se parece bastante? Parece que está bastante cerca de un punto en la distribución, y los puntos exactos en la distribución como los datos que generamos. Y entonces podría decir, muy bien, entonces, por supuesto, podríamos hacer preguntas, si tuviéramos nuestros puntos sobre la distribución, tales como, ¿qué pasaría si, cuál es la probabilidad de tener de 0 a 5? Entonces, si dije 0 a 5, saquemos la calculadora confiable, y podemos decir que ahora tendría un acumulado de aquí a acá, sigue siendo bastante bajo, tengo un punto o, 6, no puedo contarlo aquí, necesitaba un otro decimal real para subirlo. Pero la idea es que, en general, se podría resumir si tuviera otro decimal para hacerlo, para llegar al punto 6, que sería la suma de esta manera. O podemos usar los puntos en la fórmula de distribución de puntos. De esta manera, puedo ahorrar puntos en el punto dist, la x ahora va a ser el 5, la media sigue siendo la media aquí. 20.14, pero ahora si quiero que sea acumulativo. Así que puse un 1 en lugar de un 0, y eso básicamente lo resumirá. Así que tienes esos buenos puntos sobre la distribución, para darte el acumulado hasta ese punto, que sería un tipo de pregunta común. ¿Qué pasa si quiero de 7 a 14? Así que si voy de 7 a 14, aquí hay 7, y luego bajo a 14. Así que podría sumarlos, podría resumirlos teniendo cuidado de decir, bueno, ¿estamos incluyendo 7? ¿O no estamos incluyendo 7, y un problema de práctica? ¿O en cualquier situación? Hay que ser muy cuidadoso y decir, ¿estamos incluyendo esos dos extremos? ¿O realmente solo estamos diciendo que queremos incluir el 8 al 213, pero luego puedo sumarlos aquí? En realidad no lo haré, pero aquí entiendes el concepto. Y luego, si hago esto con una distribución Poisson, es un poco complicado, porque lo que tengo que hacer entonces es decir, bueno, la función acumulativa me llevará hasta el límite superior, que estoy diciendo que es 14. Que voy a suponer que estamos incluyendo el 14 aquí, así que eso subiría hasta el 14. Y luego tendría que restar hasta el límite inferior. Que tenemos 6, así que asumo que estamos incluyendo los 7, por lo que el límite inferior sería 6. X sería 14, el límite superior, que estoy incluyendo el 14, y luego la coma, y la media sería la misma media aquí. Y va a ser acumulativo con un 1 menos puntos en la diferencia de puntos hasta 6. Así que no estoy incluyendo el 7 porque no quiero restar el 7, quiero que el 7 se incluya en el rango del que estamos hablando, la coma, y luego la media va a ser esta otra vez. Y va a ser acumulativo. Así que también podemos hacer el cálculo de esa manera. Ahora, este es un histograma que traza él y lo estamos haciendo con un gráfico de barras, por cierto, en Excel, pero es un tipo de formato de histograma. Estamos trazando la diferencia, la pdx, que es el equilibrio perfecto en el histograma de la curva de distribución, frente a este gráfico de aquí, que eran nuestros datos reales. Y se puede ver que se alinean bastante cerca. Así que tienes ese extraño valor atípico justo ahí. Pero se alinean bastante cerca. Esto es lo mismo con un gráfico de líneas, a diferencia de un tipo de gráfico de histograma. Y ahora, si estoy mirando mis datos y decimos, bien, estos baches, contamos todo eso, podemos obtener algunas predicciones sobre estos baches. Vamos a contar todos los baches que aparecen cada 100 millas. Y ver si podemos analizar esos datos y ver si hay alguna tendencia a esto que pueda ayudarnos con nuestra política de mantenimiento o algo así. Y luego contamos los baches, notamos que la media está cerca de la varianza. Así que decimos, hey, parece que podría ser una publicación sobre distribución y parece que también podría ser una publicación sobre distribución. Y luego trazamos los puntos de la distribución, ¿lo comparamos? Y es como, sí, la diferencia entre sus datos y los nuestros es bastante cercana. Así que tal vez podríamos usar los puntos de distribución, vamos a trazarlos juntos uno encima del otro. Y podríamos decir, sí, parece que los puntos se aproximan a nuestros datos. Por lo tanto, pueden estar en el futuro, cuando tomemos decisiones sobre cuántos baches podrían aparecer en cualquier radio de 100 millas o algo así. Podemos usar los puntos sobre la distribución para hacer algunas aproximaciones al respecto. Y planifique en consecuencia. Observe que si los puntos de distribución no se correlacionan, no se pueden aproximar los datos reales. Entonces nos quedamos con un problema porque entonces tenemos que decir, bueno, como voy a averiguar cuántos baches vamos a hacer, tenemos que hacer algo diferente para extrapolar lo que vamos a hacer, lo que los datos van a significar en el futuro.