 estadísticas y Excel levantando imagen, datos y distribución. Tengo datos, vamos a meternos en ellos con estadísticas y Excel. Comprender e interpretar datos desde tablas hasta representación gráfica. En el corazón de las estadísticas está, por supuesto, los datos. Varias entidades como gobiernos, empresas, universidades y entusiastas del deporte recopilan una gran cantidad de datos sobre una variedad de temas. Entonces, en otras palabras, no importa quiénes seamos, cualquiera que sean nuestros intereses, generalmente estamos ocupados recopilando un montón de datos sobre esos temas en particular, y la esperanza de que podamos usar esos datos para darnos más información, una mejor comprensión sobre el tema que nos interesa. Por lo tanto, estos datos a menudo se organizan en tablas extensas. Y el desafío clave radica en dar sentido a este mar de números. Entonces, todos esos datos que estamos recopilando juntos, y en estos días, tenemos más acceso a los datos que nunca, básicamente queremos poner esa información en un formato tal que pueda darnos cierta comprensión de lo que nos interesa. Entonces, el papel de la representación visual, aquí vienen las imágenes, nuevamente, que queremos poner en práctica cuando pensamos en nuestros datos. Así que la primera regla es estadística, dibuja una imagen. Así que queremos una imagen de los datos, porque las representaciones visuales como la hierba pueden revelar patrones, relaciones y otras características importantes dentro de los datos. Así que a menudo pensamos que con un análisis estadístico, sólo vamos a tener los números, las fórmulas, no, básicamente queremos ver las imágenes porque eso nos dará una comprensión más intuitiva. La imagen nos dio esas más de mil palabras, no sólo sobre el punto medio de los datos, sino también sobre la propagación de los datos, la forma de los datos, los patrones de los datos. Así, por ejemplo, pueden indicar la distribución de una variable, resaltar valores atípicos inesperados o describir una asociación entre dos variables. Estas son a menudo cosas que estamos buscando, dentro de los datos, queremos saber el punto medio de los datos, queremos saber la distribución de los datos, queremos saber la forma general de los datos. Y nos gustaría saber posiblemente si esos datos pueden tener una correlación con otros puntos de interés que pueden ayudarnos a hacer una mejor historia o predicciones sobre las cosas. Por lo tanto, las representaciones gráficas también pueden servir como una herramienta de comunicación efectiva para compartir las historias incrustadas en los datos. Y este es el que sé que señalé en la presentación anterior. Pero quiero señalarlo de nuevo aquí porque a menudo tenemos la idea de que las personas que realmente están entendiendo esto completamente lo están entendiendo en términos matemáticos abstractos puros. Y luego tenemos que enmudecer esa información para que podamos dar la información a otras personas. Así que imaginamos como un Einstein imaginando cosas y sólo números y simplemente siendo capaces de intuir cosas y números. Y luego tomamos esa información y la ponemos en un formato pictórico, para nosotros la gente normal. Pero ese no es generalmente el caso porque incluso Einstein, de nuevo, es bastante famoso por ser capaz de tratar de visualizar cosas como caer junto a un rayo de luz y cómo se vería eso, lo que les ayudó a engranarse donde quería ir con las matemáticas? Ahora hay una pregunta sobre si las matemáticas están impulsando la visualización o la visualización está impulsando las matemáticas. Pero no creo que haya ninguna duda de que la visualización es una parte importante del análisis, incluso para las personas más inteligentes que están tratando de obtener, ya sabes, ideas de la información. Sin embargo, por supuesto, también tenemos la habilidad. Y esto se convierte más en presentar la información a una administración similar o en una situación de marketing o algo así, la habilidad de tomar datos y convertirlos en un formato pictórico, que mejor exprese la verdad sobre los datos. Y quiero enfatizar aquí que quiero expresar mejor la verdad sobre los datos, también queremos poder saber cómo mentiría la gente sobre los datos, no para que podamos vivir con los datos, sino para que podamos ver cómo los datos también se pueden manipular de manera pictórica. Porque como veremos, cuando comencemos a agrupar los datos en cosas como histogramas, habrá una gran diferencia en el tamaño de las cajas en los histogramas, por ejemplo, o vamos a agregar los valores atípicos o eliminar los valores atípicos y cosas por el estilo en cuanto a la forma del histograma, lo que podría conducir a diferentes representaciones de los datos. Entonces, si alguien estaba tratando de engañarlo, tiene una campaña de marketing o las personas tienen un ángulo para el que están usando los datos, que suele ser el caso, las personas a menudo usan datos para argumentar su punto, en lugar de mirar los datos objetivamente para encontrar la verdad sobre una cosa en particular, así es como suelen suceder las cosas, ¿verdad? Así que básicamente tenemos que ser capaces de mirar los datos y ver aquellas áreas en las que podrían estar usándolos, no correctamente. Muy bien, caracterizando la distribución, un aspecto crucial de la comprensión de los datos implica caracterizar su distribución. Por lo general, describimos una distribución de datos por uno, identificando la forma general, por ejemplo, la forma de campana. Por modal, por ejemplo, entraremos en más tipos de formas más adelante. Pero por lo general, estamos pensando en un histograma aquí, que se parece a un gráfico de barras, mostraremos muchos ejemplos de caderas, histogramas y presentaciones futuras. Pero una vez que miramos esos datos, podemos decir, se parece a la curva de campana estándar, hablaremos sobre las curvas de campana en futuras presentaciones. Hay muchos más datos como una cola para los datos. Así que echaremos un vistazo a ejemplos de que Esbimodal no tiene como dos jorobas como un cambo, eso es un fenómeno extraño que ocurre allí. Eso nos daría una idea de que está sucediendo algo dentro de los datos que nos ayudaría a explorar más profundamente en ellos. Ahora tengan cuenta que cuando miramos como un histograma, o simplemente una forma de los datos, eso no es realmente como ir a vincularse exactamente a algo como una curva en forma de campana, por ejemplo, pero podría aproximarse a una curva en forma de campana. Así que nada en la vida real generalmente va a ser exactamente como en una curva en forma de campana, ya sabes, pero muchas cosas se aproximarán, a medida que te acerques, a medida que hagas más muestras y esas cosas, más cerca de una curva de campana, o algo así, o alguna curva que podamos representar con una función, si tenemos algo que podemos representar con una función, y no siempre tendremos algo que podamos representar fácilmente con una función. Pero si podemos representar algo con una curva matemática, esa podría ser una gran herramienta, porque esa curva matemática puede ayudarnos a hacer más análisis matemáticos sobre elementos particulares. Y la forma de campana es, por supuesto, la más famosa por una razón, porque muchas cosas tienden a caer en ese tipo de forma de campana. Así que hablaremos más sobre la forma de campana y otros tipos de distribuciones que podríamos aplicar y aplicar y aplicar en una curva, una curva suave para aproximar la forma del histograma en futuras presentaciones. Así que encontrar el centro de los datos. Así que esa es una de las cosas clave que queremos hacer es encontrar el punto central de los datos, midiendo que tan dispersos o concentrados están los datos desde el centro. Entonces, una vez que sabemos cuál es ese punto central, eso no es todo lo que queremos saber, una de las grandes cosas que hace poder representar pictóricamente los datos es ayudarnos a tener una idea de la distribución, alrededor del punto central, ¿están todos los puntos de datos cerca del medio, o están dispersos? En gran medida, ya sabes, hay mucha propagación desde el punto central. Por lo tanto, organizar y resumir las estadísticas de datos tiene como objetivo organizar, describir y resumir los datos de manera efectiva. Entonces, obviamente, ese es el punto de las estadísticas, queremos tomar esta gran cantidad de datos, ponerlos de manera organizada, para que podamos obtener información de ellos. Este proceso implica ordenar datos, útilmente. En otras palabras, si solo echamos un vistazo a un conjunto de datos, si solo medimos cosas cada hora, o algo así, o todos los días, el conjunto de datos podría ordenarse por día. Pero ese no suele ser el formato más útil de los datos, una de las cosas que podríamos hacer es tratar de ordenar los datos de menor a mayor de los resultados de cualquiera que sean los datos, eso es algo que podemos hacer fácilmente en algo como Excel, es por eso que Excel va a ser muy útil para estas herramientas. Y lo haremos en futuras presentaciones, agrupando los datos de manera eficiente. Entonces, si tenemos una gran cantidad de datos, entonces podríamos querer comenzar a compilar esos datos en ciertos grupos para que podamos manejar los datos de tal manera que nos den algo de información. Y a veces la gente dice, bueno, lo que tenemos las computadoras ahora que las computadoras pueden manejar cantidades masivas de datos. Y es cierto que las computadoras pueden hacer eso. Pero al igual que, al igual que con Einstein apuntando su cerebro a la dirección correcta que usamos, tenemos que decirle a la computadora como tenemos que tener una idea de lo que queremos saber, tenemos que ser capaces de hacer una pregunta a la computadora sobre los datos. Entonces, para hacer eso, tenemos que ser capaces de entender lo que dicen los datos, para que podamos decirle a la computadora que busque lo que sea que estemos buscando dentro de ella. De lo contrario, la computadora no sabe lo que nos interesa. Así que resumir los datos con números individuales, como la media o la mediana, eso no es lo único que queremos hacer. Pero claramente ese va a ser un componente clave para poder usar estos números clave, la media y la mediana, y luego comprender la propagación alrededor, digamos la media, identificar cuartiles. Así que ese es otro tipo de herramienta que podemos usar, podemos dividir el número establecido en la media de los cuartiles medianos, creando representaciones gráficas como histogramas y diagramas de caja. Así que haremos algunos de estos en futuras presentaciones. Ambas son cosas que podemos hacer en Excel, Excel es una gran herramienta. Así que los mostraremos en Excel, así como en algunos otros fuera de Excel, así que podemos ver ejemplos de diagramas de caja e histogramas. El histograma es probablemente el, ya sabes, el grande, que nos da una mejor representación pictórica de los datos. Entonces, un histograma, por ejemplo, se crea dividiendo los datos en grupos disjuntos y contando la frecuencia de los elementos de datos dentro de cada grupo. Así que esto, esto se parece a un histograma, se parece a un gráfico de barras, pero va a ser una agrupación de los datos, hablaremos, veremos muchos ejemplos de histogramas y diferentes formas de histogramas, y como nos dan una idea de las diferentes formas y presentaciones futuras. Y luego haremos histogramas. Así que esto nos da una idea de la forma de los datos, revelando si están sesgados por moda lo simétrico, entre otras características. En otras palabras, estos son términos que vamos a usar para describir la forma de los datos. Entonces, una vez que vemos los datos, podemos decir, están sesgados. ¿Significado? ¿Habrá más datos? ¿Cómo si no tuviera cola? ¿Hay algo que parece disminuir en un lado de los datos de fecha, es bimodal? Hay dos jorobas como un Campbell y los datos, ya que es simétrico alrededor del centro se parece más a una curva de campana, tipo de forma, así que estos son términos característicos que podemos usar para describir los datos. Por lo tanto, examinar las relaciones es una parte fundamental de la extracción de significado de los datos como examinar la relación entre dos o más variables. Por ejemplo, uno podría ver la correlación entre el puntaje el SAT de un estudiante y su GPA en la universidad. Así que este es ese ejemplo en el que podemos decir, oye, mira, conozco todos los puntajes de los SAT, los puntajes de los exámenes tomados antes de la universidad. Y podemos decir si hay una relación entre los puntajes de los SAT y no estamos hablando de los puntajes de los SAT y las personas que ingresan a la universidad. Estamos hablando de los puntajes de los SAT y las personas que están en la universidad, ¿verdad? Así que están en la universidad, tienen los puntajes del SAT antes de ingresar a la universidad. Así que ahora podemos trazar si quisiéramos la relación entre los puntajes del SAT que tuvieron y su GPA, el rendimiento que tuvieron en la universidad, para ver si los puntajes del SAT tuvieron un impacto. Ahora, uno pensaría que los puntajes de los SAT, si son una medida de inteligencia, por ejemplo, y hay argumentos y debates sobre esto, cierto, puedes hacer estadísticas sobre eso y otras cosas, pero uno pensaría que si fuera que les iría más probabilidades de hacerlo bien y tener un GPA más alto. Ahora, si lo trazas en una otro, si lo trazas, no necesariamente vas a encontrar una conexión directa en eso. Entonces, la pregunta es que es que realmente cierto es, por supuesto, la pregunta. Por lo tanto, dicha relación se puede visualizar utilizando diagramas de dispersión. Entonces, en un diagrama de dispersión, con cada punto, representando la combinación específica de variables de un individuo, para que podamos trazar básicamente, el GPA contra los puntajes del SAT, y ver si hay una tendencia de vez en cuando y luego realmente podemos ver en las estadísticas realmente estamos buscando este tipo de estadísticas, solo para ver si estas dos cosas tienen una correlación. Suceden en uniforme al unísono entre sí, y en este caso, por lo general no vamos a encontrar una correlación directa, pero parecen moverse en la misma dirección entre sí. Es más o menos lo que estamos buscando en estadísticas. Ahora, mira, fíjate que las estadísticas no nos van a decir la pregunta, esa es la pregunta común que tenemos que hacer entonces es, bueno, a menudo escuchas que correlación no significa causalidad. Entonces, la pregunta es, bueno, si hay una correlación, podría haber causalidad. Entonces, la pregunta es, uno está causando al otro, y luego también podemos confundirnos en términos de cual causó el otro. Así que podríamos decir que esta cosa causó la otra cosa, cuando realmente la otra cosa está causando esta cosa, o podría ser una tercera cosa que la está causando. Así que entramos en ese tipo de pregunta sobre por qué la relación parece estar ahí. Pero las estadísticas, el diagrama de dispersión, y podemos entrar en medidas técnicas de una correlación, y podemos ver esa correlación y luego tenemos que resistir a nuestro humano, nuestros instintos humanos de decir, cada vez que hay una correlación, tiene que haber algún tipo de causalidad y podríamos obtener la causalidad al revés. Y estás, de nuevo, son cosas que la gente a menudo usa para engañar. Escucharás a menudo, a la gente se le ocurren estudios que están fuera del lugar. Parece haber una extraña correlación que, al final, asignan causalidad. O invierten las cosas que causan y el efecto como si supieras, lo hicieron al revés. Y posiblemente, pueden hacerlo a propósito, a veces parece. Así que esas son las cosas de las que tenemos que tener cuidado. Hablaremos más sobre la presentación futura. Entonces, en conclusión, el objetivo final es organizar, describir y resumir conjuntos de datos. Para comprender los datos, a menudo observamos su distribución, forma, centro y propagación. Esas son las cosas que desea tener en cuenta, estamos tratando de entender los datos que estamos tratando de hacer con el en estadísticas, queremos encontrar la distribución, la forma, el centro y la extensión. Entonces, las herramientas gráficas como los histogramas y los diagramas de caja, por lo general, nos inclinaremos hacia el histograma. Pero los diagramas de caja, también nos analizaremos, junto con medidas estadísticas como cuartiles medianos, pueden ayudar a resumir los datos de manera efectiva. Sin embargo, no representan toda la información y la comprensión de los datos a menudo implica analizar varias formas y visualizar los datos asociados a través de diagramas de dispersión u otras representaciones gráficas. Así que recuerden, una de las cosas que debemos evitar o tener mucho cuidado de tener en cuenta, es la tendencia humana a poner todo en cajas muy apretadas, tratamos de categorizar a las personas en cajas, tratamos de categorizar libros y cajas de autobuses, filosofías y cajas, religiones, y estas pequeñas cajas apretadas, derecha. Y obviamente, las cajas son, no pueden ser lo suficientemente grandes como para capturar realmente todo el significado de una persona o una filosofía a menudo, por lo que debemos tener cuidado de no estar perfeccionando demasiado. Y también debemos tener cuidado cuando las personas están perfeccionando demasiado o centrándose en una cosa en particular, excluyendo otras cosas cuando estamos analizando el trabajo de otras personas. Y recuerde, las estadísticas generalmente se usan en la práctica en el mundo real para tratar de probar un punto o hacer cumplir una acción que la gente ya quiere tomar. Así que tienen un sesgo en las estadísticas, lo cual no es ideal. Por lo tanto, tenemos que buscar donde están los sesgos y las estadísticas cuando las estadísticas no se están utilizando, usted sabe correctamente, así que tenemos que entender cómo pueden ser mal utilizados para hacer eso. Así que todos estos conceptos se cuantifican, cuantifican y exploran en profundidad en estudios estadísticos, por lo que nos sumergiremos en más de ellos en futuras presentaciones.