 estadísticas y Excel, media y valores atípicos. Prepárate respirando profundamente aguantando durante 10 segundos y esperando una X suave y relajante. Así que aquí estamos en nuestra hoja de cálculo de Excel. Si no tiene acceso a este libro, está bien porque básicamente lo construiremos a partir de una hoja de cálculo en blanco. Pero si tiene acceso a tres pestañas abajo, ejemplo, practique el ejemplo en blanco, en esencia, responda a la pestaña práctica clave. Al tener celdas preformatadas, puede llegar directamente al corazón del problema de la práctica, pestañas en blanco, simplemente teniendo nuestro conjunto de datos en él. Así que podemos practicar el formato de las celdas dentro de Excel a medida que trabajamos en el problema de la práctica. Echemos un vistazo a la pestaña de ejemplo para tener una idea de hacia donde iremos. Vamos a tener nuestros datos salariales en el lado izquierdo, haremos algunos cálculos para ello, incluida la media, crear nuestro histograma, y luego pensaremos que pasa si agregamos una partida más a esos datos salariales que es un valor atípico, posiblemente el salario del océano, y cuál sería el impacto en la media, y algo así como un histograma con ese valor atípico en su lugar. Así que pasemos a la pestaña en blanco. Ahora, si desea tener conjuntos de datos de práctica para trabajar, le sugerimos que tome un lucarroba-cacle.com que Gigi Alidarkam también puede crear el conjunto de datos o simplemente escribir un conjunto de datos, si así lo desea, no es un conjunto de datos demasiado largo con el que estamos trabajando aquí, hagamos nuestro formato normal. Como hacemos cada vez que voy a seleccionar toda la hoja de trabajo o casi cada vez, y luego voy a hacer clic, clic derecho sobre él, y formatearé las celdas, este es mi formato su quesente de referencia, luego iremos a la pestaña de números en la moneda de la izquierda, y luego quiero hacer que los números negativos estén entre corchetes y en rojo, no necesito ningún signo de dólar. Y en este momento, no se necesitan decimales. Así que voy a quitar los decimales y agregarlo según sea necesario. Y luego, está bien, voy a hacer que todo sea a bolo yendo al grupo de fuentes de la pestaña inicio, y todo está en negrita. Así es como trabajo. Soy audaz todo el tiempo. Así es el hombre, de todos modos, no realmente. Pero aún así. Vamos a luego, vamos a insertar, pongamos nuestra, nuestra pestaña aquí e iremos a insertar y haremos una tabla de sus tablas. Y solo pondré una tabla alrededor de nuestros datos. Así que seguiré adelante e insertaré nuestra tabla. Vamos a tirar de eso aquí para que podamos verlo. Las hormigas bailarinas parecen estar en los lugares adecuados. He agregado las fórmulas que creamos en una presentación anterior, por lo que no las recrearemos, pero si desea poder escribir la fórmula, recuerde, puede ir a la ecuación del grupo insertar símbolos de pestaña, y luego dentro de la ecuación, le recomiendo usar la ecuación INC, que le ayuda a crear básicamente lo que está escribiendo en el formato en Excel, lo cual es bastante bueno. Bien, ahora los datos de la izquierda representan un dato salarial que estamos imaginando para una corporación, por ejemplo. Así que hagamos algunos de nuestros cálculos estadísticos normales, antes de hacerlo. Ahora hacer una columna B delgada porque no quiero poner nada justo al lado de la mesa. Así que voy a poner mi cursor entre la columna B y C, hacer clic izquierdo y hacer que un flaco sea delgado B. Muy bien, y luego escribamos aquí que vamos a tener el promedio o medio, digamos medio o promedio, medio, o sumar o promedio, promedio. Y esto se va a crear desde Excel. Y voy a hacer la columna hace un poco más grande. No creo que necesite los dos puntos aquí. Y luego voy a hacer la fórmula igual al promedio y luego hacer doble clic en el promedio. Como hemos visto en el pasado, voy a seleccionar los datos porque están en una tabla, solo puedo usar la flecha hacia abajo. Así que las hormigas bailarinas ahora están alrededor de todo el conjunto de datos. Están haciendo sumanbe y trabajando sumaje en sumaje a buduque de alguna manera crea una fórmula cuando bailan. Pueden hacer llover a escuché probablemente no, pero aun así el cálculo mediano es igual al ni de m. Y haga doble clic en que ese es el lugar en el que estamos, si ordenamos los datos de arriba a abajo, elegiríamos el del medio. Así que voy a seleccionar todos los datos y luego decir que está la mediana. Entonces, si tuviera que ordenarlo en orden, entonces ese sería el que elegimos el que está en el medio y luego tenemos nuestro aspecto máximo para que el cálculo máximo sea igual al mx, este será el número más grande. Así que voy a seleccionar el máximo, seleccionar nuestros datos y entrar, y luego el cálculo mínimo es igual al mínimo, va a ser el número más pequeño, estas son fórmulas bastante útiles. Tenen las cosas completas o funciones, también puede tener el cuartil 1, q1 derecho, que podemos poner en su lugar igual al cuartil 1, que es algo así como la mediana. Pero para el primer cuartil, correcto, seleccionaría todo el rango, y tengo que agregar, luego coma, 1, 1, estoy haciendo esto bastante rápido, porque los hemos visto en el pasado. Y luego q2, o no q2, q3, porque la mediana es q2, q3 es igual a cuartil, haga doble clic en el cuartil, todo el conjunto de datos, coma, y esto va a ser 3 para el cuartil 3. Así que ahí está nuestro conjunto de datos. Ahora vamos a recalcular el promedio. Y esto es lo que quiero decir, básicamente convirtiendo algo que está en un, en un punto de vista de fórmula, en lugar de hacer el álgebra en él, y hacerlo a mano. Y en lugar de ir al otro extremo de simplemente usar una función o fórmula en Excel, podemos hacer una pequeña tabla para ello, cierto, podemos crear una pequeña fórmula, que es útil para que veamos los pasos que se están tomando en Excel. Así que podemos decir hagamos la acumulación promedio o media, de vacas. Y este será el cálculo manual. Ahora, esto es que pueden pensar en ello como hacer una declaración de impuestos o algo así, correcto, están haciendo, están mostrando su trabajo en como, como un formato de declaración de impuestos, correcto, donde pueden ver las fórmulas, línea por línea, así que de cualquier manera, para que podamos decir que vamos a, vamos a, si yo, si miro esto, este formato, lo que tengo que hacer es resumir todas las x, verdad? Así que esta fórmula significa x barra, la media, o el promedio de x1 x2 x3, todos estos representan x, justo para el número de x que están aquí. Así que x2x3, y así sucesivamente. Y luego vamos a resumir todo eso y dividirlo por n. Lo mismo aquí, esta suma representa lo mismo que el numerador en la parte superior, estamos sumando todas las décima donde x comienza en y, y luego va a n y es igual a 1 a n dividido por el número de n. Así que podemos tocar eso aquí abajo. Y puedo decir, bueno, calculemos el numerador, que es básicamente la suma de los valores de los tíquets, digamos que x es 2x es igual, usemos nuestra confiable función suma, esta vez, resumiendo, y, y todo lo que hay aquí. Así que lo resumiremos todos estos elementos que representan x1 x2 x3 en xn, para nuestro caso, sin embargo, muchos x están allí. Y luego vamos a decir que queremos dividir dividir por número de valores, que es lo que estamos representando como n en nuestra en nuestra fórmula, correcto, así que vamos a dividir por el número de valores para obtener que usaré la función count es igual a los corchetes de count. Y simplemente vamos a seleccionar nuestro conjunto de datos, que contará todos los elementos, este es el número de elementos, hay 51 de ellos, y eso nos dará nuestro promedio, o media. Y luego voy a decir que esto equivale a la suma de los datos divididos por 1 para los 51. Ahí está. Así que obtenemos el mismo cálculo aquí. Y aquí, pondamos un subrayado grupo de fuentes de la pestaña de inicio, subrayemos que si está haciendo una tabla, a menudo, podría hacer la parte superior como un encabezado, derecha, pestaña inicio, corchetes de grupo de fuentes, hagamos esto negro y luego la fuente blanca, puede sangrar algunos de los lados internos, derecha, así que la pestaña de inicio útil de la pequeña sangría, sangría de alineación. Entonces, debido a que tiene dos puntos, este es un sub cálculo dentro de él y luego aquí abajo, el total podría doble sangría, pestaña inicio, alineación, doble sangría. Así que podría hacer esto un poco más amplio. Así que ahí lo tenemos. Pongamos un poco de azul alrededor de esto porque esa es mi pestaña de inicio de color de entrada de datos normal, el cubo despegable grupo de fuentes, si no tiene ese azul, está bajo el estándar más colores y luego azul. Así que diremos bien, voy a poner bordes fancrute despegables, bordes, así que ahí lo tenemos. Haré lo mismo aquí con nuestros datos aquí. Pestaña inicio, grupo de fuentes, azul y borde. Bien, ahí están nuestras estadísticas normales y pensamos en nuestra fórmula en un formato de tabla, un poco más rigurosamente, rigurosamente. Ahora vamos a hacer nuestro histograma. Así que voy a seleccionar todo el conjunto de datos y voy a ir a la pestaña insertar e ir a los gráficos y al histograma. Y hagamos un histograma de ello. Eliminaré el título porque podríamos ver el conjunto de datos y se ve algo así. Así que ahí está nuestro histograma. Así que eso se ve bien. Podemos, por supuesto, cambiar el número de cubos a la izquierda, si queremos, juguemos un poco con eso. Si golpeo los cubos de la izquierda, hagamos que estén automático entre este símbolo, puedo decir él, digamos el número de contenedores, digamos que queremos como 11 contenedores. Entonces tengo algo que se parece a esto. Y, entonces, tenemos más datos a la izquierda y luego tenemos un par de conjuntos de datos a la derecha. Así que hay una especie de mapeo de los datos, no está realmente poblando como una curva en forma de campana, cierto, está siguiendo hacia la derecha, ya sabes, tipo de forma de los datos. Muy bien, bueno, tomemos esto, lo que queremos hacer ahora es pensar en que pasaría si hubiera un valor atípico en los datos, correcto, así que ahora vamos a agregar un valor atípico, así que tomemos todo esto. Y lo voy a copiar, lo voy a copiar a la derecha. Así que voy a tomar todo este punto de partida. Y debido a que todo es relativo entre sí, podría lamentar eso. Creo que me tragué una mosca. La mosca estaba tan alta de oírme hablar que tomó una carga de muerte que a mi casa en mi garganta y trató de detenerme de hablar. En cualquier caso, vamos a copiar todo, así que voy a ir desde la columna A, seleccionaré toda la columna. Y luego voy a seguir y podemos ir hasta digamos columna, L control, C o copiar, haga clic derecho y copies y así lo desea, y luego lo pondré en la columna N. Así que en la columna en clic derecho, y voy a pegarlo normal. Así que ahora pegó todo. Simplemente normal, cierto, así que ahora voy a hacer una columna delgada M. Ahora quiero asegurarme de que todo se está poblando como debería. Entonces, en otras palabras, esto ahora está extrayendo de mi nuevo conjunto de datos, no está tirando de la tabla anterior aquí, eso es lo que queremos que suceda. Para que uno se vea bien, todos parecen estar extrayendo de mi nuevo conjunto de datos, que son los mismos números, pero una tabla diferente, que ahora voy a modificar. Así que eso se ve bien. Ahora que revisemos el gráfico, el gráfico se extrae del conjunto de datos anterior, por lo que se extrae de esta tabla. Así que quiero cambiar mi histograma para extraer del nuevo conjunto de datos este conjunto de datos. Así que puedo seleccionar el gráfico, una forma en que podría hacerlo es ir a las herramientas de gráficos en la parte superior, y luego los datos que se han seleccionado, voy a entrar en eso. Y así están las hormigas bailarinas haciendo suman de alrededor de los datos, pero se mueve saltando por aquí, voy a moverlo hacia atrás. Y quiero tomar esa serie de datos y editarlos. Y luego decir que necesitas cambiar donde lo haces tu mamá, pero hormigas, mira que comienza a ir allí. Una vez más, ahí no es donde quieres ir. Quiero que bailes alrededor de estos. Baila alrededor de esos. Y entonces diremos que está bien, y luego está bien. Y luego bien, así que ahora tenemos nuestro baile de baile. Tenemos el conjunto de datos correcto. Bien, ahora solo vamos a agregar una pieza más de datos. Todos son todos los conjuntos de datos, pero ahora tienes al CEO, eso es, eso es que gana un millón de pesos. Vamos a llevarlo a un millón. ¿Y te imaginas lo que va a pasar? Eso es cien mil. Cien mil. No, no, un millón, un millón. Bien, ahora tenemos que ver si nuestros conjuntos de datos recogen los datos correctos. Entonces, si selecciono todos mis datos, bajará por completo, es porque hice una mesa con ella. De modo que cuando parece que está recogiendo toda la mesa, el máximo parece correcto. Observe que nuestro promedio ahora ha aumentado a 89, 354 frente a los 71 de 98. Así que tenemos un impacto bastante significativo en el promedio de eso, que es el nuevo conjunto de datos. Así que si resumo todo aquí, recoge el millón aquí también. Y luego aquí está nuestro nuevo cálculo promedio. Echemos un vistazo a la tabla. No creo que las tablas recojan el nuevo conjunto de datos. Si me desplazo hacia abajo, no está recogiendo ese millón. Así que ahora cambiemos la tabla y digamos cambiemos esto. Una forma más fácil de hacerlo es simplemente hacer click en el aquí. Y luego me muestra los datos. Y podría arrastrar esa caja hacia abajo para recoger el millón. Y ahí está, así que ahora tenemos un histograma realmente desordenado, porque el millón es este gran valor atípico y está tratando de recoger una serie de cajas que tomarán en consideración esa cantidad de un peso que está muy, muy lejos. Así que parece que todo lo demás está en esta caja de aquí. Ahora, si traté de hacer mis cajas, hagamos esto lo más amplio posible. Y luego trataré de hacer mis cajas para que pueda recoger más de estas cosas. Hagámoslo así. Y como sabes, desplázalo un poco. Muy bien, ahora vamos a hacerlo, vamos a hacerlo, voy a ir a mí, mis números, y luego aquí, eje, y luego voy a hacer que el número de contenedores suba a 450 contenedores, ¿verdad? Así que ahora pueden ver, ahora pueden ver lo que está haciendo aquí. Tiene este artículo de una línea aquí y todo lo demás está un poco lleno. En el lado izquierdo, hagamos como 400, 400 contenedores, 400. Entonces, correcto, tienes ese elemento de línea allí. Y si me gustó 353,50? Curvas? Hagamos más. Tengámoslo, hagámos el 400 de nuevo. De todos modos, así que eso es así, así que eso es obviamente un problema, ya que los valores atípicos pueden tener un gran impacto en algunas de nuestras herramientas estadísticas. Entonces, cuando estoy usando este histograma, si tuviera que eliminar el valor atípico, u otra cosa que pueda hacer es tratar de decir que cualquier cosa por encima de cierta cantidad. Entonces voy a decir que el desbordamiento es algo más de 90.000 o fue? Así que ahora, si vuelvo a reducir el tamaño de mi contenedor automático, entonces solo tiene dos contenedores. Eso es automático. Vamos a traerlo, vamos a traerlo de vuelta a como 10 contenedores. Así que ahora tienes algo que parece más razonable. Pero no hay más que este valor atípico está tirando, tirando de todo a esa salida. Derecha. Así que solo para demostrar que voy a eliminar eso. Y vamos a decir que ahora tenemos otros contenedores, como 450 contenedores, solo para que podamos ver el impacto del valor atípico. Muy bien, así que ahí está. Así que ahora, ahora, de nuevo, algunos de los problemas que tenemos aquí son que el promedio se verá afectado por ese valor atípico, ese valor atípico podría incluso ser mayor, ¿verdad? Como si esto fuera como, ya sabes, 9 millones, ya sabes, entonces tenemos el promedio saltando hasta 243.000. Y frente a los 71. Ahora fíjate, si tomo la mediana, la mediana todavía se ve relativamente bien, porque es la que está en el medio, por lo que un valor atípico no está afectando la mediana. Así que esto es algo así como, la, vamos a traer esto de vuelta a un millón. Así que nuestro histograma está de vuelta. Así que este es el tipo de lo que tenemos que pensar sobre qué números son más representativos de lo que estamos haciendo. Y de nuevo, este es otro lugar donde la gente a menudo juega cuando intentan ser un poco engañosos con los números, ¿verdad? Así que tienes que decir, bueno, ¿están usando el medio? O ¿están usando el promedio en el que sería apropiado usar? Y en este caso, entonces, si está mirando si está mirando como la altura promedio de las personas y tiene una distribución en forma de campana de los datos, entonces la media es a menudo bastante útil, es un buen tipo de número de resumen para usar. Sin embargo, sí, por ejemplo, tienes datos salariales y tienes algo como esto, donde el CEO está fuera de lo normal y alguien está tratando de argumentar por un aumento en su salario, o los indicatos o algo así están tratando de decir que necesitamos un aumento en el salario porque estamos por debajo del salario promedio. Bueno, eso podría estar un poco distorsionado, porque los salarios promedio teniendo en cuenta estos enormes valores atípicos que están ahí fuera, ¿verdad? Así que podrías decir, bueno, tal vez el valor atípico, la gente debería ganar menos que en lugar de que todos los demás ganen más, a menos que te permita tener el dinero para ti, es difícil o si estás tomando los precios de las casas, por ejemplo. Y cuando tomas los precios de las casas, es posible que tengas una gran mansión en el vecindario que podría valer millones de dólares, mientras que las otras casas están en algún lugar alrededor del promedio del área, que digamos que este 100.000 pesos o algo así, bueno, entonces usted pensaría que la mediana, el número medio, el promedio o el número medio en el conjunto de datos sería más apropiado que la media porque la media va a estar sesgada por ese gran valor atípico, o podrías decir, bueno, porque no tomo este conjunto de números y elimino el gran valor atípico, saco el salario del CEO, y luego es el número medio, el número medio, el promedio, tendrá más sentido para la gente normal, como si voy a hacerlo, si estoy tratando de conseguir un nuevo trabajo. En algún lugar fuera de la universidad o algo así, entonces para mi tomar el promedio del salario de la empresa, que tiene en cuenta los altos salarios del CEO. Entonces eso probablemente no va a ser representativo de lo que podría estar haciendo en esa organización, mientras que la mediana podría ser mucho más representativa de lo que estoy haciendo la organización o si tuviera que sacar los valores atípicos y mirar el salario promedio sin el valor atípico. Así que, de nuevo, estos son cuando observamos estas diferencias. Esta es otra área donde la gente comienza a decir, bueno, las estadísticas son solo otra forma de mentir con números, ¿verdad?, pero no lo es, pero cuando la gente está engañando con los números, son, son, son lo que están haciendo. Es como lo que hacen con las palabras. Están eligiendo intencionalmente, a menudo la representación incorrecta que tiene algo de verdad, pero que es engañosa, ya sea por omisión de los datos adecuados para obtener la perspectiva adecuada, o ya sabes, o simplemente, ya sabes, la señorita malinterpretando los datos que se han dado. Así que ahí está eso.