 Estadísticas e histogramas de Excel y diagramas de dispersión con datos de población. Obtuvimos datos, vamos a meternos en ellos con estadísticas y X. Así que no está obligado a hacerlo. Pero si tiene acceso a un icono de nota, al lado izquierdo, a las presentaciones de una nota, a 1065, a histograma y a la pestaña de diagramas de dispersión con datos de población, también estamos cargando transcripciones en One Out. Por lo tanto, puede usar la herramienta lector inmersivo, cambiar el idioma y, si lo desea, leer o escuchar las transcripciones y varios idiomas, utilizando las marcas de tiempo para vincularlas a las presentaciones de video. 043. La versión de escritorio de One Out continúa con nuestro tema de tomar datos y hacer representaciones pictóricas de esos datos. Así que podemos obtener un ángulo diferente, una visión diferente de los datos, con suerte. Esa visión nos permite tener una mejor comprensión y extraer más significado de los datos de lo que de otra manera podríamos hacer. Nuestras principales herramientas que vamos a utilizar serán, por supuesto, nuestro histograma que vamos a crear. Y crearemos los diagramas de dispersión, recordando que un histograma normalmente será útil con un conjunto de datos. Así que estamos tratando de saber cosas sobre ese conjunto de datos, como el punto central de los datos y la propagación de los datos. Y tenemos una idea de qué, con el histograma, el diagrama de dispersión normalmente tendrá dos conjuntos de datos. Ahora recuerda el histograma, podrías tener dos histogramas, como superpuestos entre sí, y un área. Y así es como se puede tener dos conjuntos de datos en un gráfico. Pero, por lo general, pensamos en un histograma que representa un conjunto de datos, mientras que el diagrama de dispersión tiene dos conjuntos de datos en un eje X y, por lo general, estás tratando de ver si hay un movimiento juntos. Y una vez que vemos si hay un movimiento estadístico juntos, entonces podemos tratar de determinar si hay una relación de causa y efecto, y cuál está causando cuál, por ejemplo. Así que vamos a ver esto con un skit con datos de población aquí. Así que tenemos ubicaciones, tenemos la población total, y luego tenemos la edad menor de 18 años, de 18 años, de 18 a 34 años, de 35 años, de 65 años. Más el número de hogares, familias y niveles de ingresos. Así que esto es lo que puedes imaginar un senso de datos aquí. Y tenemos estos datos. Y ahora podríamos empezar a graficar estos datos. Así que aquí está la información relacionada con él, aquí están los números relacionados con él. Y luego vamos a empezar a trazar los elementos ahora primero, voy a ir línea por línea, y echar un vistazo a diferentes histogramas si tuviéramos que hacer un histograma a partir de cada conjunto de datos. El primero es simplemente este conjunto de datos, que es la población. Así que en la población, tenemos un histograma aquí. Ahora, estos son básicamente los que estoy usando como una especie de histogramas predeterminados creados a partir de Excel. Así que simplemente selecciono el elemento, dejo que Excel presente una serie de cubos aquí. Y este es el histograma que tenemos. Así que estos son los tamaños de los cubos, que los ponen en los rangos que tenemos. Y luego la altura del histograma, cuántos caen en estos diferentes rangos. Ahora, si tuvieras que describir este tipo de histogramas, recuerda, la mayoría de las personas cuando comienzan a pensar en histogramas, comienzan a pensar que todo va a caer en una curva de campana, porque la curva de campana es algo muy utilizado, y hablaremos de las curvas de campana que son muy útiles. Pero tengan cuenta que no todos los conjuntos de datos obviamente van a caer en una curva de campana, podría tener cualquier tipo de dispersión de datos. Y entonces tenemos que pensar en cómo podemos describir los datos, ¿verdad? Podríamos, básicamente podríamos decir, ya sabes, este está sesgado hacia la izquierda o hacia la derecha, este está sesgado hacia la derecha, lo que significa que el extremo de la cola está a la derecha, la parte gorda del conjunto de datos está en el lado izquierdo. Así que esa es una forma en que podemos describirlo, podemos ver el punto focal del conjunto de datos. Entonces, si lo pusieras en una balanza, ¿dónde estaría el tipo de punto focal del final? Por lo tanto, te da una idea de dónde estaría el punto medio en el conjunto de datos desde un punto de vista intuitivo, que es otra cosa clave que estaríamos buscando. Entonces, en este caso, tenemos poblaciones por aquí, el tamaño de la población es, por supuesto, donde está la mayoría de la gente y luego tienes el tamaño de la población que aumenta mucho. Y hay menos lugares que tienen esas grandes poblaciones, uno esperaría que esos fueran, por supuesto, los grandes puntos centrales. Y por lo tanto, uno no pensaría que habría muchos de ellos. Así es como normalmente la población de muchos lugares será correcta, hay un lugar central, una gran ciudad, un tipo de lugar. Y luego y luego y eso va a tener, ya sabes, una población mucho más alta posiblemente que otras áreas a su alrededor. Así que echemos un vistazo a la siguiente, esta, solo estoy tomando la edad ahora. Así que ahora solo digo, bueno, veamos a las personas que tienen menos de 18 años. Así que vamos a decir, estos eran básicamente niños en su mayor parte o no agregarán la edad adulta, posiblemente. Entonces, es de esperar que, si las personas son menores de 18 años, haya más familias en ese caso, ¿verdad? Porque, bueno, tienes más niños o jóvenes y esa vez, de nuevo, podrías tratar de sacar conclusiones sobre si habría más o menos personas de una edad más joven, dependiendo de las circunstancias. Tienen una ubicación particular, ¿ya sabes, hay algún tipo de auge? O algo con niños o más familias o menos familias, o lo que sea, ya sabes, así que, ya sabes, así que tenemos los números aquí, una vez más, estás esgado hacia la derecha, lo que significa que tenemos este tipo de cola que está sucediendo hacia el lado derecho. Así que, de nuevo, tienes tus cubos aquí y luego tienes el punto más alto, en realidad, en el extremo izquierdo, y luego tienes este tipo de valores atípicos hacia el lado derecho, que tienen un montón de jóvenes de 18 años. Ahora, de nuevo, si comienzas a pensar en estos dos juntos, puedes comenzar a pensar, bueno, tu población, si la población aumenta, en general, podrías tener, ya sabes, más jóvenes de 18 años, ya sabes. En general, y así sucesivamente, si has tratado de combinar estas cosas, echemos un vistazo a la siguiente, los siguientes datos son solo de 18 a 34. Así que tomamos estos datos y hicimos un histograma de ese conjunto de datos y tenemos un aspecto similar y eso en el sentido de que estás esgado hacia la derecha. Y podrías pensar en un gimnasio en un sentido general, cualquier grupo de edad, a medida que la población aumenta, pensarías que cualquier grupo de edad puede subir al mismo tiempo, aunque las relaciones pueden diferir, por supuesto, dependiendo de, ya sabes, donde la gente elige vivir. Así que, una vez más, este cubo es el mayor número de áreas y luego va bajando y luego con las personas más envejecidas están las personas de entre 18 y 34 años. Por aquí, y este es un poco interesante que este, ya sabes, este es más bajo que el anterior, es algo interesante, pero en cualquier caso, entonces tienes a los mayores de 65 años y ahora tienes a la gente mayor, mayor aquí. Y, de nuevo, tienes un histograma similar, pero no todos tienen el mismo aspecto en comparación con la población total. Así que teníamos la población total aquí y luego 18, por debajo de 1818 a 34. Y luego los 65 años más, pero hay un tipo de tendencia similar en la que hay un menor número de personas de 65 años más de esos lugares aquí. Y luego más personas que tienen 65 años. Además, tienes que, ya sabes, la cola sale hacia la derecha y luego tienes el número de hogares. Así que esta también será una tendencia similar a la que se podría pensar. Porque si tuvieras un número de poblaciones, poblaciones más altas, esperarías más hogares, pero podrías empezar a profundizar en los números en términos de, ya sabes, hay hogares unipersonales o unidades familiares. Así que, de nuevo, a medida que aumenta el tamaño de la población, se esperaría que hubiera más familias, pero entonces se podría esperar que no haya una diferencia o cambio exacto entre una ciudad y las áreas menos pobladas, posiblemente. Y luego tienes los ingresos, el número de hogares de más de 100.000, así que esta es una distribución un poco diferente, de nuevo, uno esperaría que cuanta más gente haya en un área, es más probable que haya gente que gane más dinero dentro de ella. Así que en el cubo inferior, tienes, ya sabes, 122.750. Por lo que menos personas ganan más de 100K. Y luego, por supuesto, si pasas al cubo para más personas en un lugar en particular están ganando esa cantidad de dinero. Hay menos lugares que tienen más personas que ganan más de esa cantidad. Y luego, si tienes un montón de 2.640.000 a 3.270 que están ganando, ya sabes, mucho dinero, entonces hay pocos lugares que tengan tantos dentro, ¿verdad? Así que supongo que se podría pensar que el tamaño de la población tendría algún tipo de influencia en estas estadísticas justo cuando se empiezan a comparar algunas de ellas. Digamos que vamos a hacer algunas comparaciones. Así que ahora vamos a hacer nuestra, nuestra Xci. Así que recuerda, cuando hacemos el diagrama de dispersión, por lo general queremos poner la variable independiente en la décima. Entonces, lo que creemos que va a ser el independiente. Ahora, recuerda, cuando estamos haciendo el diagrama de dispersión, en realidad solo estamos tratando de graficar, estamos, ya sabes, podrías estar pensando en ello como una hipótesis cuando estás haciendo el diagrama de dispersión. ¿Derecha? ¿Estás tratando de ver si hay una relación que es estadística, están sucediendo al mismo tiempo? Y luego, una vez que has establecido esa relación, puedes tratar de determinar que es una relación causal. ¿Y cuál es el huevo y la gallina, que, quién es la causa y el efecto, ¿verdad? Así, por ejemplo, en este caso, si digo población, asumo que la población en la décima es la variable independiente. Y lo que podríamos suponer, como hipótesis, es que a medida que aumenta la población, pensaríamos que las personas menores de 18 años, en esencia, los niños, muchos, la mayoría de ellos tendrán 18 años o más, pero la nuestra también aumentaría, posiblemente, ¿verdad? Piensas que si la población total aumenta, habría más niños. Y ves que hay una dispersión, que está bastante cerca. Ahora, si tuviera que tomar estos datos en Excel a partir de estos datos, es un poco más difícil, porque no los puse y los puse uno al lado del otro. Así que puedo seleccionar estas dos columnas del mismo gráfico. En este caso, estos dos, bueno, están uno al lado del otro en este caso, pero no lo estarán todo el tiempo. Así que puedo seleccionar estos dos, estos dos elementos aquí, y eso nos dará la X y la Y, si la columna de la izquierda va a ser tu variable independiente. Excel básicamente creará el gráfico de forma automática. Así que uno pensaría que a medida que la población aumenta, hay más personas que terminan siendo que también hay más personas menores de 18 años, tienen más hijos, a medida que la población aumenta, también tienden a tener más hijos. Y uno pensaría que eso sería algo esperado. Pero no siempre es así. Este parece ser un caso atípico bastante extremo, tienes una población bastante alta y bastante baja gente menor de 18 años. Ahora podríais, supongo, ahora podéis empezar a analizar ese tipo de cosas, ese tipo de valores atípicos. Por ejemplo, que está pasando aquí, porque tal vez es un lugar derretido, es un lugar donde la gente va a jubilarse, tal vez hubo un tipo de cosas. Y luego podemos hacer la recta de regresión dentro de los datos. Así que ahora vamos a tratar de dibujar una línea que se aproxima a los datos. Obviamente, la línea no es exacta, cuanto más los datos estén alrededor de la línea, entonces más poder predictivo tendrá la línea, y de modo que si podemos obtener una fórmula para la línea, entonces podríamos ser capaces de usar la fórmula, en algunos casos, para hacer algunas predicciones sobre la relación, podríamos decir, bueno, si la población está aumentando, esperaríamos que muchas personas tengan menos de 18 años. De hecho, cuál sería la idea general, pero no es una relación perfecta, solo estamos haciendo una conjetura, con ese tipo de línea, podríamos hacer otras líneas, recuerda, lo que estás tratando de hacer es dibujar una línea o una curva, una curva con suerte que puedes representar con una fórmula matemática, que él en la IN sería el más fácil de hacer, para que puedas saber que tienes una fórmula matemática para la relación. Fíjense en esto, tenemos la población y el nivel de ingresos. Ahora, en este caso, parece que no tenemos la población está aumentando, y luego tenemos que si miro los dos puntos de datos, tenemos la población total, y luego el número de hogares de más de 100 mil, creo que es el punto de datos que estamos viendo aquí. Así que ahora estamos diciendo, ya sabes, a medida que la población aumenta, uno esperaría que hubiera más personas por encima de ese umbral, pero aquí hay una correlación mucho más débil, porque los puntos están básicamente por todas partes. Así que tal vez tengas, ya sabes, más, ya sabes, lugares de personas donde hay, ya sabes, bueno, mucha gente dinerada en diferentes lugares o algo así, así que todavía se puede notar, todavía se puede hacer una línea de regresión aquí, pero esa línea de regresión tiene mucho menos poder predictivo, que si los datos se ven así, es muy probable que si usas esta fórmula para hacer una predicción sobre el tamaño de la población y el número de hogares de más de 100K, que eso no va a ser del todo correcto, porque esta fórmula no es exactamente representativa de un dato, el conjunto de datos que tenemos aquí. Entonces, si miro a otro, este va a ser el tamaño de la población y las familias. Así que ahora, si miro mi conjunto de datos aquí, tenemos el tamaño de la población y una vez más decimos que ese es el independiente y luego el número de familias. Entonces, si tuviera que hacer esto en Excel, tendría que resaltar esta tecla control y seleccionar las celdas no hallacentes al mismo tiempo, porque la población está a la izquierda, automáticamente crearía básicamente lo que querría, es decir, la población independiente en X, las familias en la Y, así que uno esperaría que hubiera una especie de relación aquí también, donde la población si la población aumenta, entonces uno esperaría que hubiera más familias, ¿verdad? Es de esperar que si la población aumenta, haya más familias. Ahora, puede que no, puede que haya algunos momentos en los que la población aumente y haya menos familias, ya sabes, por persona, per cápita o algo así. Porque, ya sabes, más personas en las ciudades podrían ser solteras en comparación con otros lugares o algo así. Pero es de esperar que, en general, haya habido un aumento de la línea, como ésta, por ejemplo, un valor atípico, diría, ya sabes, esta población de tamaño bastante decente y es más baja en la familia. Así que podrías decir, bueno, ¿qué es exactamente lo que está pasando allí? ¿Por qué exactamente? Podría ser es el caso, pero tienes una, relación bastante buena, lo que significa que la fórmula de la línea de regresión podría darte cierto poder predictivo, puedes decir, bueno, si hay una población de tanta de lo que esperaríamos, tal vez haya tantas familias involucradas en función de esta línea. Y tiene un poder predictivo bastante decente, dado el hecho de que los puntos están todos agrupados aquí. Ahora, ten en cuenta que también te puede gustar que pasas si estás pensando. Bueno, no creo que tengas el problema del huevo y la gallina, las cosas están al revés, creo que las familias son lo que impulsa a la población, no? Porque las familias son las que tienen a los niños y todo eso. Así que, tal vez, ya sabes, eso podría, eso podría ser una suposición errónea. Porque, ya sabes, es posible que tengas población de inmigración y otro tipo de cosas también. Pero eso podría ser que pudiéramos decir, oye, mira, esto es al revés. Así que, podrías leer esto, podrías decir, bueno, por qué no leo esto como el independiente y llego a la misma conclusión a medida que las familias aumentan, la población aumenta, puedes leerlo de esa manera. Debido a que sólo muestra la relación entre estos dos, parece haber una relación entre ellos. Pero tradicionalmente, ponemos lo independiente en el huevo. Así que ahora, básicamente, estamos indicando, bueno, son las familias las que están. Como pueden ver, estos son una especie de espejo que se reflejan entre sí aquí. Y se podría decir, se podría hacer de esta manera. Y se podría decir, bueno, las familias son lo que son, son las que impulsan son la variable independiente. Y a medida que las familias aumentan, entonces, la población aumenta. Y así puedes, puedes graficarlo de esta manera. Y, y, por otra parte, puedes tener esta discusión sobre lo que veo, hay una correlación, escucho que veo que están subiendo al mismo tiempo, entonces, la pregunta es, está uno causando el otro? O simplemente, ambos están subiendo, porque como un tercer factor está causando que ambos y cuál está causando que el otro suba es si son las familias las que causan la población o la población, causando la familia y se puede debatir eso. Pero las estadísticas muestran la relación y luego, puedes sacar tus conclusiones o hacer tus hipótesis a partir de eso. Pero simplemente, el hecho de que exista una relación significaría que sí, si usamos estas fórmulas, podríamos ser capaces de hacer algún poder predictivo de cualquier manera. ¿Derecha? Si conocemos las familias, sabemos el número de familias, podríamos hacernos una idea de la población y si lo hacemos de esta manera, y si conocemos a la población, podríamos hacernos una idea del número de familias porque parece que van en la misma dirección con un poder predictivo bastante decente de la fórmula. Pero luego, te metes en la pregunta de cuál es la causa de la otra? Es una tercera cosa lo que está causando o ya sabes, que fue primero y todo eso. Y esas son preguntas diferentes, ¿verdad? Así que depende de lo que intentes hacer con los datos. Ahora, no, sólo desde el punto de vista logístico, si hicieras este gráfico, ahora tenemos la población total y las familias, si resaltaras estos datos en Excel, resaltando esta columna. Y luego mantener presionada la tecla control y resaltar esta columna, y luego insertar simplemente insertando el gráfico, no va a salir, ¿verdad? Porque va a poner por defecto, el que estaba a la izquierda, hará esta población, y luego las familias. Así que entonces tendrás que entrar en estos datos. Y tendrás que hacer click en los datos e invertir los ejes haciendo e invertirlo a la derecha. Entonces, la forma más fácil de construir estos gráficos es organizar los datos. Así que el eje X, las variables independientes a la izquierda y el eje Y, el dependiente está a la derecha, pero si no quieres hacer eso y lo estás extrayendo de datos donde los datos están invertidos, entonces vas a tener que entrar allí y hacer un poco más de trabajo, para que puedas invertir los ejes X e y en Excel. Ahora, obviamente podríamos, podríamos hacer mucho más, podríamos comparar y contrastar, puedes ver todas las combinaciones que podemos hacer básicamente aquí, podemos, podemos hacer un diagrama de dispersión entre cualquiera de estos y podemos hacer cualquiera de ellos en los ejes X e Y y ver las relaciones entre ellos. Así que por muchos combos que haya, tal vez algunos de ellos sean más útiles que otros. Pero se puede ver que podríamos, ya sabes, trazar dos columnas cualesquiera juntas y un diagrama de dispersión y ver si hay ver si parecen alinearse juntas.