 Estadísticas y correlación de Excel simple con pocos puntos de datos ejemplo de datos obtuve datos, vamos a meternos en el con estadísticas y Excel, no es necesario, pero si tiene acceso a una nota donde en el icono del lado izquierdo una presentación de nota 1725 correlaciones simples pocos puntos de datos pestaña de ejemplo. También cargar transcripciones en OneNote para que pueda ir a la pestaña de vista lector inmersivo o cambiar el idioma si así lo desea, poder leer o escuchar la transcripción en varios idiomas diferentes, usando la marca de tiempo para vincularla a las presentaciones de video. La versión de escritorio de OneNote aquí está pensando en la correlación que tiene diferentes conjuntos de datos para ver si hay una relación matemática o correlación entre los diferentes conjuntos de datos. En otras palabras, los puntos y los diferentes conjuntos de datos se mueven juntos de alguna manera, ¿existe una relación o correlación matemática entre los dos conjuntos de datos diferentes? La siguiente pregunta lógica sería, ¿existe una relación de causa y efecto que esté causando la correlación o relación matemática entre los dos conjuntos de datos diferentes? Y si hay una relación causal, la siguiente pregunta lógica sería cuál es el factor causal, cuál es el factor causal, cuál es el causante de la relación causal, cuál es la correlación o relación matemática entre los diferentes conjuntos de datos, y presentaciones previas, pensamos en una correlación positiva perfecta y una correlación negativa perfecta. Cosas en las que es útil pensar en teoría, pero que no suelen ser exactamente lo que tenemos en la práctica, porque normalmente no tenemos una correlación perfecta, tenemos una especie de correlación imperfecta o tendencia que estamos observando. Así que esta vez, veremos un conjunto de datos que tiene menos información, pero que no está perfectamente correlacionado. En nuestro ejemplo, vamos a imaginar que X va a ser el número de gallinas, así que estamos hablando de gallinas y va a ser el número de huevos. Ahora ten en cuenta que si estás viendo dos conjuntos de datos diferentes, es posible que tengas algunas suposiciones libres, algunas hipótesis que vas a hacer a partir de los datos. Por ejemplo, si estás hablando de gallinas y huevos, podrías estar pensando que las gallinas van a ser el factor causal que va a producir los huevos, pero tienes un problema del huevo y la gallina. Quiero decir, si fueras el granjero, podrías comprar huevos, eso produciría gallinas que luego harían los huevos. Pero, ya sabes, por lo general se puede pensar que el granjero va a comprar las gallinas primero, que van a ser, ya sabes, producir los huevos o algo así. Así que esa es una cuestión de relación de causa y efecto. Recuerda que cuando pensamos en la correlación matemática, no necesariamente sabemos si hay un factor causal o no y cuál es ese factor causal, solo estamos viendo la relación con las matemáticas. Así que vamos a imaginar que si tuviéramos tres gallinas, tenemos el número de huevos 105, cinco manos, tenemos los huevos en 185 y seis gallinas, los huevos en 201 van a ser huevos por año, dado el número de gallinas, y luego siete gallinas, 345. Ahora, la idea aquí sería en general, bueno, si tuviera más manos, entonces, ya sabes, produciría más huevos, pensarías. Así que uno pensaría que habría, ya sabes, una relación causal entre ellos. Si trazamos esto, si solo trazo estos 4 puntos, no 10. Ahora que es algo más fácil de trazar, porque estamos viendo pocos puntos de datos, y podemos ver por el tipo de datos que tenemos que uno pensaría que habría una relación causal entre el número de gallinas y el número de huevos. Así que ahora vamos a decir que si tuviéramos que trazar esto, entonces, y si lo trazo en Excel, puedo seleccionar la X y la Y, la X se trazará automáticamente como predeterminada en el eje X aquí, lo cual es, lo cual es bueno para nosotros, estamos usando un diagrama de dispersión. Y luego, básicamente, podemos etiquetar esto para que puedas ver nuestros 4 puntos. Así que con 3 manos, tenemos 105 huevos, teníamos las 5 manos aquí con 5 manos, teníamos 185 huevos, y luego con 6 manos, teníamos los 200 huevos. Y con las 7 manos, teníamos el 350. Ahora, como era de esperar, tenemos un tipo de correlación positiva. Ese tipo de relación nave, podemos trazar una línea, una línea de tendencia allí. Y eso es algo útil. Porque si estuvieramos tratando de pensar en el futuro, si necesitamos o no comprar más gallinas y queremos tener más huevos, y estamos tratando de pensar cuántas gallinas más necesitamos para lograr tantos más huevos, realmente no puedo mirar estos diferentes puntos y tratar de resolverlo. Puedo decir, está bien, voy a poner una aquí arriba en alguna parte. Pero si tengo una línea y luego, por supuesto, podemos usar la fórmula de una línea para dar una idea de cuál sería el número aproximado de gallinas para producir el siguiente número de huevos. Ahora también, de nuevo, recuerda que normalmente ponemos las gallinas o ponemos la variable independiente, en este caso, las manos en la décima, generalmente, y ponemos la variable dependiente en la y. Así que, de nuevo, me imagino que, como granjero, estás pensando en cuántos huevos vas a hacer. ¿Qué se iba de mano en mano y luego se decía? ¿Cuántas manos necesito para producir suficientes óvulos? Sin embargo, de nuevo, también podrías pensar en ello, ¿qué pasaría si compraran huevos, y luego los huevos harían las gallinas, pero algunos gallos, tal vez gallos que tienes que comer o algo antes de que comiencen a criar gallos, y luego tú, pero dijiste que también podías pensarlo de esa manera. Pero así es, pero ahí está. Así que ahora, si tuviera que darles la vuelta, ¿qué pasaría? ¿Qué pasa si pongo los huevos en la décima y las manos en la y? ¿Optendría una correlación negativa? No, todavía vas a obtener una correlación positiva matemáticamente, todavía tienes la correlación positiva. Mostrando aquí. Así que ahora tienes el número de huevos. Entonces, si yo tuviera este número de huevos, entonces tienes las manos libres, ¿verdad? Si lo hubiera hecho, para que puedas pensarlo de esta manera. Si tenía alrededor de 100, y lo que sea que sea, huevos, 180, creo que era, entonces puedes predecir que tenías, ya sabes, 5 manos o de esa manera también. Así que todavía tienes la relación positiva, todavía puedes dibujar la línea de tendencia, ya sea que pongas tus interruptores, cambies las X o las Y. Bien, ahora vamos a hacer el tipo de relación matemática, podemos decir, ¿cuál es el significado de esto? Así que el cálculo de la media, como lo normal, es el promedio. Entonces, si tomo el número promedio de X, podemos calcularlo en la calculadora, porque no tenemos muchas X, 3 más 5 más 6 más 7, dividido por 4 va a ser 5.25. Y el sabio 105, más 1, un 5 más 2, un 1 más 345, dividido por 4, va a ser el 209. Y luego vamos a tomar la muestra. Y la muestra va a ser la fórmula en Excel igual al estándar, lo siento, la desviación estándar, no la desviación estándar de la muestra de la muestra, estándar de punto S. De estos dos conjuntos de datos, obtenemos el 1,71. Esa es la medida del diferencial y el 99,92. Así que una vez que tenemos eso, podemos hacer nuestro cálculo, que va a ser nuestra fórmula para el cálculo, que vamos a tomar cada X menos la media, dividida por la desviación estándar. Así que haremos esto en un formato paso a paso. Así que vamos a tomar cada una de las X que son las X, y luego hacer lo mismo con la X, restar menos la media, sobre la desviación estándar, que es básicamente la puntuación Z. Luego la sumaremos todas y dividiremos por n menos 1. Hagámoslo uno por uno, vamos a decir primero, tenemos las décima. Así que hagámoslo. Cada uno de los puntos de datos menos X, así que vamos a decir 3, nosotros 3, 5 y 7 menos X. Así que también tenemos que ver eso de aquí, los 3 de aquí, menos menos el 5.25, que es la media. Llegamos al 2.25 negativo, y luego tomo el 5 menos el 5.25, y llego al punto 2, 5, tomo el 6 menos el 5.25, y llego al punto 7, 5, y tomo el 7 menos el 5.25, y llego al 1.75. Así que eso es lo que tenemos aquí, ahí están esos 3 números. Y luego, para llegar a la puntuación Z, tomamos esos números y los dividimos por la desviación estándar. Así que todo lo que estamos haciendo ahora es el siguiente paso, diríamos bien, que hicimos de nuevo, tomamos los 3 menos 5.25 divididos por el estándar D, dividido por 1.71. Y luego el siguiente sería 5 menos el 5.25 dividido por el estándar D, 1.71, y así sucesivamente. Así que tenemos esos, aquí está el segundo, aproximadamente un punto, el punto 1.5, y luego hacemos lo mismo con la Z. Aquí están todas las y menos la media de la Z, así que diríamos que las Z y aquí serían, por ejemplo, 105 menos 209. Boom, y luego tomaríamos el siguiente 185 millas. Fíjate en el 209, y así sucesivamente. Así que si vamos por aquí, vamos a decir que no tenemos menos 24 y menos 8, y luego tomamos cada uno de ellos, y dividimos por el estándar D, así que haríamos lo mismo, si tomar a este primer 1105 menos el 209. Dividido por el estándar de 99.9, ha aproximadamente 1.04, en el negativo. Así que ahí tenemos eso, y luego simplemente multiplicamos lo Z. Así que estos dos juntos, y eso nos dará entonces, si tomo este primero, 1.32 por el 1.04, obtenemos el 1.37, y así sucesivamente. Entonces, si resumo esta última columna, obtengo el numerador. Así que puedo usar mi pequeña tabla aquí y resumir eso, voy a ponerlo en un formato de tabla, aquí está la suma de esta columna, en realidad puedo hacerlo en una calculadora. ¿Por qué no? Porque solo hay cuatro números, 1.34 más punto, o, 4 menos punto, o, 4 más 1, 39. 117, nos da alrededor de 2.77. El redondeo está involucrado, entonces el denominador SN-1, N es el número de elementos, hay filas 1, fila 2, fila 3, fila 4 fila, y menos 1 nos va a dar 3. Y luego tenemos el numerador y el denominador y las columnas exteriores. 2.77 dividido por 3 nos va a dar el punto 9. 2, fíjense de nuevo, el formato que tengo aquí de esta fórmula, algo útil para ponerla en una tabla. Cuando trabajas en hojas de cálculo de Excel o algo así, es útil verlo de esta manera. Puedes construir tus hojas de trabajo, es miércoles, este es el numerador, que es este bit y luego el denominador. Voy a hacer un subcálculo y voy a desglosar tantos subcálculos como necesite y los llevaré a la columna interior indicando que es un subcálculo con 2 puntos con la sangría y menos 1, el resultado luego rebota en la columna exterior, que puedo llamar N-1, o simplemente en este caso, el denominador. Y luego divido solo las columnas exteriores 2.77 dividido por 3.92. Ahora puedo ver esto en Excel y usar Excel para hacer esto, con la herramienta de análisis, que no está en Excel by it, está en Excel, pero no está activada de forma predeterminada, puedes encontrar eso y las opciones. Lo hacemos en el problema de Excel, si quieres verlo con más detalle. Pero luego, ahí, puedo hacer la correlación y simplemente recoger este conjunto de datos, tienes que tener el conjunto de datos uno al lado del otro. Así que solo destaco ese conjunto de datos en Excel. Y Excel me dará este mensaje y tendré que rellenar, aquí es donde va el conjunto de datos, tendría que marcar el rango o que tenía las etiquetas involucradas si hiciera clic en las etiquetas, y luego decirme donde quiero ponerlos y lo pusiera en Excel, y me dará algo como esto. Y me concentro en la décima y la I, que se cruzan aquí, está el punto 9.219, y así sucesivamente que pasamos por aquí, aunque lo redondeamos. Sin embargo, esto no es dinámico, por lo que si cambio el conjunto de datos, esto no va a cambiar con él. Por lo tanto, no es una gran herramienta para su hoja de trabajo si está haciendo una hoja de trabajo dinámica, pero es una gran herramienta para analizar los datos por adelantado o para verificar sus datos como lo estamos haciendo aquí. También puede utilizar la misma herramienta de análisis de datos y ver estos datos descriptivos. Y sólo quiero señalar que, a pesar de que no es nuestro principal punto de enfoque aquí darles este tipo de información descriptiva para la X y la Y, este es nuestro tipo general de información estadística, tienes la media, tienes el error estándar, la mediana, la moda, la desviación estándar, la varianza de la muestra, el mínimo, el máximo, la suma, el recuento, etc. Y esto, de nuevo, no es dinámico, no cambia a medida que cambian los datos. Por lo tanto, es una buena herramienta para usar como análisis preliminar, que podría ser lo primero que haga antes de construir algo a partir de su conjunto de datos para tener una idea o una idea de lo que está sucediendo con ellos, y puede resaltar varios conjuntos de datos y hacer que se escupa no puede usarlo como una figura de verificación para sus conjuntos de datos. Así que sólo un resumen rápido aquí, ahora estamos viendo una correlación positiva perfecta, una correlación negativa perfecta. Ahora estamos viendo un ejemplo más realista en el que no está perfectamente correlacionado, pero hay una tendencia general, esta de Dean, en la que de antemano se esperaría ver algún tipo de tendencia general. Y al trazar esa tendencia, puede obtener una mayor comprensión sobre los conjuntos de datos y, posiblemente, le dará poder predictivo en el futuro, como cuántas gallinas necesitaría comprar usando la fórmula matemática, obviamente que conoce estas gallinas. Así que lo estamos haciendo, lo estamos haciendo muy bien, y luego estas compras de manos eran manos más flojas. Y no estaban a la altura, ya sabes, de la línea de producción que esperábamos de ellos. Pero, de nuevo, poner huevos no es poner huevos es difícil, lo haría, supongo. Así que no me quejo, no estoy como, ya sabes, es un trabajo duro. Pero uno pensaría que las otras manos lo estaban haciendo, ya sabes, lo hicieron un poco mejor. Así que, ya sabes, luego estas pistas, y luego esta está afuera, pero entonces tendrías la línea de tendencia. Y la línea de tendencia puede ayudarte a predecir, a predecir, por supuesto, y, por supuesto, podemos ver cuál es la correlación exacta. Con nuestro cálculo aquí matemáticamente, lo que te dará una comprensión de que tan buena es esa relación, que tan confiable puede ser al usar eso, ya sabes, básicamente la línea de tendencia. Posiblemente para hacer predicciones, puedes hacerlo con un cálculo de fórmula, que es útil a veces, porque, como veremos, en futuros ejemplos, desglosar esta información de esta manera, mirando las puntuaciones zeta. A menudo te dará más información o muy probablemente podría darte más información que simplemente usar Excel para escupir la correlación zeta. Entonces, cualquiera de los dos métodos sería bueno. Y luego, por supuesto, al graficarlo, cuando lo gráficas, le das esa representación pictórica para que podamos ver la correlación. Conceptualmente, podemos tener una idea de cuál podría ser la correlación. Y luego, por supuesto, podemos trazarlo en un gráfico y verlo pictóricamente y recoger la fórmula de la línea de tendencia que podría ser útil, y luego podemos hacer un cálculo matemático de la correlación en este caso. Teniendo, por supuesto, una correlación positiva pero no perfectamente positiva.