 Estadísticas y Excel, diagramas de dispersión con datos relacionados con el automóvil. Tengo datos, vamos a meternos en ellos con Estadísticas y Excel, versión de escritorio de OneNote. Aquí, continuar con nuestro tema de tomar datos y crear una representación pictórica de los mismos nos permitió obtener una visión diferente, un ángulo diferente de esos datos, con la esperanza de ayudarnos a extraer más significado de los datos de lo que de otra manera podríamos hacer. Ahora bien, en presentaciones anteriores, nuestras principales representaciones pictóricas han sido el diagrama de caja, o caja y bigotes. Y los histogramas son excelentes herramientas para tomar un tipo de conjunto de datos y tratar de tener una idea de ese conjunto de datos. Mirando, por ejemplo, el punto medio y la dispersión de los datos. 0,50. Sin embargo, tenga en cuenta que, por lo general, esas herramientas se utilizan para un conjunto de datos, no para varios conjuntos de datos. Aunque puede pensar en varios conjuntos de datos teniendo un cuadro y bigotes uno al lado del otro, o un histograma uno al lado del otro, o posiblemente graficando un histograma encima de otro histograma en el mismo gráfico, lo que podría darle una buena representación pictórica. Pero ahora queremos pensar en una representación de tipo diagrama de dispersión. Cuando pensamos en una representación de referencia de diagrama de dispersión, generalmente estamos viendo dos conjuntos de datos. Y estamos tratando de determinar si va a haber una relación entre estos dos conjuntos de datos. Ahora recuerden que siempre estamos pensando como seres humanos, si se mueven juntos, hay una especie de relación de causa y efecto. Eso es a lo que saltamos, pero realmente no podemos, tenemos que tener cuidado de saltar a esa conclusión con las estadísticas, por supuesto, lo que estamos haciendo es tratar de decir. 1,47. Bien, existe una relación estadística de que estas dos cosas se muevan juntas? Y si lo hay, entonces podemos continuar y tratar de determinar si lo hay, si uno está causando los otros. Ahora, siempre tenemos en cuenta, cada vez que exploramos estos conceptos es uno, las estadísticas podemos decir que estas dos cosas están sucediendo y se correlacionan entre sí. Pero entonces la pregunta es, hay uno que causa al otro o hay algún otro factor que está causando a ambos que siempre tenemos que tener en cuenta? Y también tenemos que tener en cuenta si nos equivocamos o no en la causa y el efecto, el problema del huevo y la gallina, cual vino primero? ¿Cuál se atrapa si hay una relación de causa y efecto? Es posible hacerlo al revés. Y esas son dos cosas con las que tenemos que ser muy cautelosos. Así que recuerda, las estadísticas, solo haciendo esto, el diagrama de caja o el diagrama de dispersión nos ayudarán a obtener una representación visual para ver si se están alineando. Y luego tendríamos que partir de ahí para determinar si hay una relación de causa y efecto. Muy bien, aquí está nuestra información. Tenemos información relacionada con el automóvil, millas por galón, cilindros de galón, cilindrada, potencia, peso, modelo de aceleración y estos diferentes factores en un automóvil. Por ejemplo, si está pensando en comprar un automóvil, claramente, podrían tener impactos entre sí. Entonces, por ejemplo, pensaría que si tuviera más cilindros en el automóvil, eso podría conducir a una mayor potencia. Así que se podría decir que hay una especie de relación con este tipo de cosas. Si tiene más cilindros en el automóvil, pensaría que esa potencia podría aumentar y, a medida que aumentan los caballos de fuerza, tal vez las millas por galón no sean tan eficientes como pensaría, ¿verdad? Si tienes un coche de alta potencia, especialmente si lo conduces en la ciudad, donde tienes mucho tráfico de parada y arranque, entonces pensarías que eso podría ser millas por galón, reducir las millas por galón, el peso del coche. Uno pensaría que el peso del automóvil podría tener un impacto en las millas por galón del automóvil, y así sucesivamente. La aceleración, algo similar, crees que pensarías que el peso del coche podría tener algún impacto en la aceleración. Así que podemos trazar estos algunos de estos puntos de datos juntos. Podemos imaginar múltiples formas diferentes de trazar estos puntos de datos, estos dos conjuntos de datos a la vez, dos a la vez en los ejes X y C y para tratar de determinar si hay algún tipo de movimiento que está sucediendo juntos. Y luego, por supuesto, tienes que pensar en lo que es el huevo y la gallina, cuál es la causa de una causa y la otra, o se mueven juntos debido a algún tercer factor que está involucrado. Hablaremos más sobre eso más adelante. Pero por ahora, si nos fijamos en estos datos, vamos a hacer algo como esto, que va a ser nuestro diagrama de dispersión. Ahora, solo logísticamente, tenga en cuenta que en Excel, es lo que sucede a menudo, si solo desea tener la forma más fácil de ingresar el diagrama de dispersión ad, entonces puede colocar estos dos conjuntos de datos uno al lado del otro. Entonces, en este caso, tenemos los caballos de fuerza y las millas por galón que vamos a ver. Y aquí está nuestro conjunto de datos. Así que los copiamos de aquí, de aquí, no tienes que hacer eso. Pero esa es la forma más fácil para que Excel crea automáticamente el diagrama de dispersión de forma bastante correcta. Entonces, si solo resaltar a estos datos y crear el diagrama de dispersión, entonces pondría en el eje x, la potencia. Aquí está la potencia en el eje x. El eje x es tradicionalmente lo que consideraríamos como la variable independiente. Y entonces decimos que la variable dependiente, lo que se mueve debido a los caballos de fuerza, y en ese proceso de pensamiento serían las millas por galón. Así es como normalmente lo pensamos. Cuando lo trazamos, podrías pensarlo de otra manera, y podrías tratar de leer el gráfico, ya que esta era la variable independiente. Y esta era la dependiente, pero tradicionalmente, por supuesto, colocamos en el eje x lo que pensamos que es la variable independiente, por lo que se mueve de forma independiente, y luego las millas por galón aquí arriba. Otro ejemplo clásico de esto es como los puntajes de los SAT, si estás en una situación de tipo universitario, y estás tratando de ver los puntajes de los exámenes que un grupo de estudiantes tomaron antes de ingresar a la universidad, y estás tratando de ver si los puntajes de los exámenes tienen un impacto en su resultado, sus promedios de calificaciones. En la universidad, ese es un ejemplo clásico. Y en ese tipo de ejemplo, fíjate que las personas que tenemos todos los puntajes de los exámenes, tenemos todos los puntajes de los exámenes, ¿verdad? Así que tenemos todos los datos, y luego tenemos los datos relacionados con las calificaciones. Y estamos tratando de trazar para determinar la variable dependiente, la variable independiente en ese caso serían los puntajes del SAT, y luego la variable dependiente que estamos tratando de ver si hay una relación o si se mueven juntas estaría en el eje y para los promedios de calificaciones reales, ¿verdad? Aquí, estamos diciendo, bien, los caballos de fuerza en nuestro caso, tenemos los caballos de fuerza que conocemos todos los datos para los caballos de fuerza. Y estamos tratando de decir que la conducción es la relación entre los caballos de fuerza y las millas por galón. Entonces, si miramos los caballos de fuerza, esto se ordena de menor a menor en los caballos de fuerza, por lo que en el punto más alto de los caballos de fuerza, estamos en el 230. Así que si vamos hasta aquí, en algún lugar a los caballos de fuerza, en algún lugar aquí está el 230 en el eje X. Y si luego muevo eso al eje Y, las millas, las millas por galón, pueden ver que las millas por galón son más bajas que algunos de los otros puntos, que es más o menos lo que esperaría que tenga un automóvil de mayor potencia que tenga menos millas por galón. Si voy hasta la parte inferior de la tabla, en algún lugar alrededor de 96. En la potencia, ya sabes, sería alrededor de 96 por aquí, eso está en algún lugar en el medio. En algún lugar de aquí, puedes ver que si tomo estos lugares, son más altos en las millas por galón, que es más o menos lo que esperarías. Así que tienes una relación, el final. Y la pregunta es, ¿es la potencia lo que se llama la causa de la situación de millas por galón? O se están moviendo ambos alineados con algún tercer factor, ¿qué? De nuevo, hablaremos más de ello más adelante. Pero se puede ver que hay algo de relación, no es una relación perfecta, por supuesto, porque estamos trazando todos los puntos aquí. Y luego estamos tratando de ver una tendencia, si hay una tendencia que está ocurriendo. Ahora, a menudo, lo siguiente que haríamos es crear la línea de tendencia. Así que esto lo puedes hacer en Excel añadiendo una línea de tendencia. A menudo, estamos buscando una línea recta, eso es lo que nos gustaría hacer normalmente, nos gustaría crear una especie de línea recta, si es posible, si hay una relación que se parece a una línea recta, para que obtengamos la función de la línea. Ahora, esto es similar cuando vimos los histogramas y dijimos que sí podemos crear una curva del histograma para la que podemos hacer una función que sería útil, porque entonces podemos usar ecuaciones matemáticas para hacer predicciones basadas en la ecuación. ¿Tienes algo similar aquí, ¿verdad? Sabemos que todo esto no está en juego. Pero si podemos crear una línea que se aproxime a los datos de alguna manera, sería genial, porque entonces podemos, entonces al menos podemos hacer una ecuación. Y podemos hacer predicciones sobre la ecuación que no son perfectas. Pero hay algún tipo de correlación que parece estar ocurriendo aquí. Ahora, si no hubiera una línea recta y tuvieras algún otro tipo de línea curva, entonces otra vez, lo que realmente nos gustaría que sucediera es tener algún tipo de línea que podamos poner a través de los datos que se aproxime al conjunto de datos para el que podemos hacer una fórmula. ¿Por qué? De nuevo, si tenemos la fórmula, entonces podemos hacer más aproximaciones, la línea recta sería la fórmula más fácil de tratar, por lo general. Entonces, cuando ves algo como esto, claramente, cuanto más apretados están los puntos alrededor de la línea central, más correlación hay, más se mueven juntos. Y eso es diferente de la cuestión de cuál es una causa y la otra, pero más, se están moviendo juntos en ese sentido. Eso significa que esta línea posiblemente dará más valor predictivo. Cuanto más apretados estén los puntos alrededor de la línea, si los puntos no están cerca de la línea, están dispersos por todo el lugar, y no puedes, ya sabes, básicamente están dispersos al azar, bueno, entonces no tienes una muy buena correlación, puedes intentar dibujar una línea en ella, pero esa línea no te va a dar mucho poder predictivo. Si estás tratando de determinar, ya sabes, los caballos de fuerza, y luego el tipo de millas por galón, ¿verdad? Así que estamos tratando de hacerlo porque no hay una gran correlación. 11-32. Ahora en Excel. Tenga en cuenta que puede ingresar el gráfico, puede agregar la línea, y luego puedes mostrar la ecuación en la recta si así lo deseas aquí. Y, por supuesto, también puedes agregar, es muy importante agregar los ejes X y Y. 11-50. Porque tú y eso es más importante, a menudo, que el título aquí, porque el título de esto puedes hacer que el título que estamos comparando, ya sabes, las millas por galón, galón y la potencia. Pero el punto importante es que puedes ver que en el gráfico, el punto importante está en el eje X, y que está en el eje Y, para que podamos ver lo que está pasando. Ahora, si analizas estos datos, una vez que haces esto, podrías comenzar a pensar bien, porque sucede esto, como, ya sabes, aquí, tienes muy poca potencia. Y estamos, siempre estoy mirando primero los caballos de fuerza en la X, porque estoy pensando en ella como independiente. Y luego miro eso, y lo comparo con las millas por galón de la derecha, y es como, bueno, son mucho mejores millas por galón con estos caballos de fuerza muy bajos. Y luego, en algún lugar por aquí, cuando llegas a este tipo de rango medio de caballos de fuerza, tienes una mayor dispersión en el medio y pones una línea más ajustada. Y luego aquí abajo, donde tienes esta potencia muy alta, en realidad tienes un poquito, un poquito más de millas por galón que algunos de estos artículos aquí, donde la potencia es menor. Pero tienes menos millas por galón. Así que hace estos, algunos de estos realmente no siguen las tendencias. Así que podrías tratar de entender eso y decir, bueno, ¿por qué podría hacer eso exactamente? No sé, solo estoy un poco, pero puedes lanzar teorías desde ese punto y tratar de especular sobre lo que realmente está sucediendo con el gráfico. Quiero decir, tal vez, por ejemplo, estos autos de muy alta potencia no se conducen en áreas más pobladas o algo así, y por lo tanto, 13.30. En realidad, están siendo un poco más eficientes en las millas por galón, porque son conducidos, tal vez por cierto, se supone que deben ser conducidos y áreas más abiertas. Mientras que si tiene algunos de estos autos de mayor potencia que están un poco en el medio, pero se conducen en el centro de Los Ángeles, 13.46. Donde se van a mover, ya sabes, a dos millas por hora hay una parada al tráfico, entonces pensarías que eso sería muy ineficiente para un automóvil. Así que no sé, solo estoy bien, entonces puedes especular y tratar de ver bien lo que realmente está pasando con esta relación. Ahora, también ten en cuenta que si piensas en las millas por galón como independientes, puedes hacer eso, pero no es así como tradicionalmente se gráfica. Por lo general, pensamos en la X como la independiente, pero se podría decir, bueno, ¿qué pasa si la relación causal o si asumo que la relación causal es al revés? O, ya sabes, en algún caso, ya sabes, vas a decir, 14.21. Bueno, si tengo las millas por galón aquí arriba, entonces si us, pueden imaginar es que eso está causando, us, saben, que los caballos de fuerza sean para estar aquí, correctos para ser menores en los caballos de fuerza, y luego cuando yo, cuando digo que las millas por galón son bastante bajas. Podría decir que si imagino que esto es lo independiente, podría decir que está lo independiente, y entonces lo dependiente sería que haya una mayor potencia, ¿verdad? 14.49. Así que, obviamente, probablemente ese no sea exactamente el caso. Porque podrías imaginar hacer un automóvil muy ineficiente de millas por galón, ya sabes, que consume mucha gasolina, que todavía no tiene muchos caballos de fuerza. Entonces, pero en cualquier caso, así que ahí, ahí está ese. Ahora podemos ver otro aquí, este es el de las millas por galón y la aceleración. Entonces, en este caso, estamos imaginando que la variable independiente son las millas por galón aquí, y luego la aceleración es la variable dependiente. 15.26. Así que, una vez más, tomamos los datos en nuestro conjunto de datos. Y no tienes que hacerlo de esta manera. Pero copié los dos componentes que son más relevantes y los puse uno al lado del otro. Y pongo lo que voy a decir que está en el eje X, que es solo la variable independiente a la izquierda, la variable dependiente a la derecha, y luego, si solo resalto esos datos e introduzco un diagrama de dispersión, Excel, en su mayor parte, lo hará bien. Y ahora tienes esta relación, que tienes esta dispersión aquí, a través de la cual puedes crear una línea. Y luego, si está cerca de esa línea, puedes mirar la fórmula de la línea y posiblemente tener algún poder predictivo de esa línea. Así que aquí tenemos una cosa similar, tenemos las millas por galón. Si tengo pocas millas por galón, entonces resulto en y siempre estoy mirando la X primero y la aceleración, un poco más baja en la aceleración, ¿verdad? Y si tengo las millas por galón aquí, en algún lugar, millas por galón, ya sabes, aquí arriba, entonces la aceleración es en realidad un poco más alta. Y así puedes ver una especie de relación aquí. Y de nuevo, la pregunta sería, bueno, hay una especie de que se están moviendo juntos, uno está causando al otro o tal vez hay un tercer factor involucrado. Y hablaremos más sobre esas situaciones en el futuro. 1654. Pero por ahora, sólo para construir el diagrama de dispersión, generalmente estamos tratando de comparar dos conjuntos de datos, por lo general queremos graficar en el eje X, el elemento independiente en el eje Y, el elemento dependiente y Excel que es más fácil de hacer. Si tienes tu columna de datos para el independiente OX a la izquierda y tu dependiente a la derecha, puedes seleccionar los datos e importar el gráfico. Una vez que lo hagas, normalmente eliminaría el título a menos que quieras agregar el título también. Pero luego agregue los accesos porque es muy importante para el diagrama de dispersión saber cuál es el eje X, cuál es el eje Y, luego a menudo es útil ingresar la línea de regresión y luego tengo la línea a la línea de tendencia. Y luego también puedes poner la fórmula en su lugar. Creo que esos son sólo algunos de los formatos útiles para crear el diagrama de dispersión usando la herramienta de Excel.