 Estadísticas y Excel, diagrama de caja de datos de salarios o caja y bigotes tienen datos, vamos a meternos en ello con estadísticas y Excel, no es necesario. Pero si tiene acceso a esto en línea, una nota, estamos en el icono, en el lado izquierdo de la pestaña diagrama de caja de OneNote y Excel presentaciones 1020, también intentaremos cargar nuestras transcripciones para que, si lo desea, pueda ir a la pestaña a ver en la parte superior, usar la herramienta de lectura inmersiva. Puede cambiar el idioma aquí si así lo desea y leerlo o escucharlo en varios idiomas versión de escritorio de OneNote aquí mirando nuestra información. Nuestros datos en el lado izquierdo que imaginamos que son información de ingresos salariales, posiblemente relacionado con los empleados de una corporación o una empresa o posiblemente relacionado con la facultad de una escuela si quieres imaginarlo de esa manera. Así que ten en cuenta que, por lo general, cuando obtenemos los datos por primera vez, no van a estar organizados de una manera que no sea muy útil. Entonces, por ejemplo, si hiciéramos una muestra aleatoria, si le preguntáramos a la gente cuál es su salario, si estuvieran dispuestos a darnos cuál era el salario real, entonces podríamos ordenar la información de las personas a las que preguntamos a lasar cuál era su salario, o podríamos obtener la información. Si tenemos acceso a los salarios por orden alfabético, podríamos tener una lista de nuestros empleados en orden alfabético y los salarios relacionados con ellos. Claramente, cuando solo miramos el conjunto de datos, y de esa manera, es posible que podamos extraer alguna información de él. Pero se vuelve bastante difícil hacerlo porque no hay un orden de los datos, va a ser difícil obtener significado de esos datos. Y claramente, si estás en una situación con salarios, la situación común sería que estás tratando de argumentar que deberías tener más salarios para tener un mayor nivel de ingresos. Por lo tanto, puede buscar datos si tuviera acceso al nivel salarial real y a su organización en particular, o puedes buscar el salario relacionado con las personas de tu profesión y decir, oye, mira, este es el salario comparativo. Esto es lo que estoy haciendo, y así sucesivamente, pero claramente, si tuvieras que presentar algo en este orden, no sería tan útil, ¿verdad? Si tuvieras una lista de salarios de personas, y la presentaras en una reunión, y trataras de argumentar que deberías obtener un aumento debido a esta lista de salarios, entonces esta no sería la forma más eficiente de presentar esa lista. Si fuera un orden alfabético, o algo así, lo que querrías hacer normalmente es organizar esto y la primera forma de organizarte a menudo será de menor a mayor o de mayor a menor. Entonces, en Excel, haremos esto básicamente haciendo una tabla, tenemos un buen campo de ordenación. Así que podemos hacer esta clasificación muy fácilmente. Hubo un tiempo en el que no era tan fácil, es genial que ahora podamos clasificar fácilmente esta información, así que ahora lo tenemos de mayor a menor, que es probablemente lo que vamos a estar buscando, vamos a decir, oye, mira, esta persona está ganando 84.000, no lo sé, y lo que sea, y así sucesivamente, y podemos hacernos una idea decente de la gama simplemente mirándola en orden. Ahora, eso está claro cuando miras este tipo de datos. Pero si estuvieras buscando un gran conjunto de datos que tenga mucha más información, entonces esto seguiría siendo bastante difícil de mirar y extraer mucho significado de él. Por lo tanto, lo siguiente que hay que hacer suele ser hacer algún tipo de representación pictórica de los datos. Así que las representaciones pictóricas son muy importantes. No son simplemente una herramienta tipo muleta para explicar cosas al profano, queremos tener el tipo de datos pictóricos. Ahora, la caja y los bigotes o el diagrama de caja es un tipo de cosa bastante fácil de armar. Y creo que uno de los atractivos del diagrama de caja frente a lo que veremos más adelante, que será un histograma. Otra forma de ordenar los datos, posiblemente una que veas con más frecuencia, porque te da otro sentido o un sentido diferente de la propagación de los datos. Pero creo que la trama de la caja fue un poco más fácil de dibujar. Si tuvieras que dibujar algo a mano, ya sabes, podría ser un poco más fácil dibujar la caja y los bigotes que el histograma, pero ahora, por supuesto, tenemos Excel. Así que podemos dibujar con bastante facilidad lo que queramos dibujar para que podamos hacer la caja y los bigotes si así lo deseamos. Y podemos hacer los histogramas con bastante facilidad si así lo deseamos, y podemos hacer gráficos de barras que practicaremos en Excel. Entonces, si tuviéramos que graficar estos datos, podríamos ver lo que tenemos aquí. Tenemos los salarios, y tenemos que llegar a lo que queremos que sean los intervalos de los salarios. Así que comienza en 50-55, 60-65-70, 75-80-85. Y luego tenemos nuestra información sobre la caja y los bigotes para la representación pictórica. Así que en realidad también ponemos los datos aquí, lo que puedes hacer en Excel. Así que ahora vamos a analizar cada uno de estos puntos de la trama de caja, ese va a ser nuestro próximo tipo de componente. Así que voy a hacer esto un poco más pequeño aquí. Así que aquí está nuestro mismo diagrama de caja a la derecha, y veamos el significado de algunos de estos números en el diagrama de caja. Por lo general, queremos si tenemos el promedio o la media, ese es uno de los primeros tipos de cálculos que normalmente haremos. Entonces, si pienso en el promedio, ¿cómo calcularíamos el promedio de este conjunto de números? Ahora, si tuvieras que hacer esto de la vieja escuela con una calculadora, sería bastante tedioso. Pero el concepto es bastante sencillo, vamos a sumar todos estos números del boom de babababa, y luego vamos a dividirlo por el número total de números que tenemos, contaremos los números y dividiremos por el total. Entonces, si tuviera que hacer eso, el cálculo manual, puedo sumar todos los números y luego dividirlos, así que puedo pensar en eso con dos funciones, la función de suma, que sumaría todos los números y luego dividiría representados por la barra diagonal aquí. Y luego esta función de conteo en realidad simplemente cuenta el número. Entonces, si está interesado en eso, en Excel, llegaremos a eso, puede echar un vistazo a un problema en Excel. Y luego, si quisiera usar una función solo a, la función es la función promedio. Entonces, en Excel, puedo usar la función promedio y luego seleccionar toda esta columna de números, me dará el promedio, recuerden, el promedio es la media, lo mismo, dos palabras, el mismo concepto. Así es como podemos calcular el promedio que está representado aquí con la décima. Ahora, tenen cuenta que la x no es exactamente lo mismo que la recta, la x es el promedio, la línea representa la mediana, el punto medio del número. Así que veamos el siguiente, el mínimo no incluido, sin incluir los valores atípicos. Así que el número mínimo, sin incluir los valores atípicos, tenemos 67, 9, que va a ser este de aquí, en la parte inferior de la caja y los bigotes, sin incluir los valores atípicos, el valor atípico es 55.000, así que tenemos que llegar a algún tipo de regla. Y vamos a usar, ya sabes, una especie de regla arbitraria aquí, para determinar lo que debería ser básicamente un valor atípico que va a salir de la caja y los bigotes. Claramente, los valores atípicos van a ser muy importantes, porque pueden distorsionar en gran medida números como la media o el promedio. Ahora, si voy a mirar esta lista de números, y solo calculo cuáles es el número 67000, puedo organizar los números de menor a mayor o de mayor a menor. Y ahí está el 67, 9 aquí, sin incluir el valor atípico, mira los valores atípicos que van pasando, también puedes usar la función min. Ahora la función min en Excel elegirá el número más pequeño. Entonces, si tuviera que usar la función min, no podría, tendría que seleccionar todos estos datos, sin incluir el valor atípico, y luego tomaría el número más pequeño en esa es otra forma en que puede hacerlo dentro de Excel solo para practicar esa función min. Muy bien, entonces tenemos el primer cuartil, excluyendo la mediana, así que el primer cuartil excluyendo la mediana, así que fuimos desde la parte inferior del bigote hasta la parte inferior de la caja. Así que aquí está el primer cuartil en el 69 700. Antes de seguir explicando y profundizando en el cuartil, es más fácil bajar a la mediana o al cuartil de dos nombres para la misma cosa, la mediana o el cuartil hasta donde estamos en el 70.900. Eso está representado en la caja y los bigotes por esta línea, que es diferente a la décima, la décima representa el promedio o la media, la línea que representa la mediana o el cuartil 2. Observe que esos dos términos clave que son más a menudo usan el promedio o la media y la mediana o el cuartil para ambos tienen esos dos tipos de nombres. Así que lo tienes. Pero la mayoría de las veces, la gente va a usar la mediana como término. Entonces, ¿qué significa eso? Es algo así como, si has visto las películas de Rocky, donde el consejo para Rocky, el boxeador, es que dice veo tres de ellos por ahí y el entrenador dice que tienes que golpear al que está en el medio, ¿verdad? Eso es lo que es la mediana golpeada a la del medio. Entonces, cuando miramos el promedio o la media de la última vez con el ex fue cuando lo sumamos todos. Y luego dividimos por el conteo que en este caso fueron tres to one. Cuando echamos un vistazo a la mediana, golpeamos el que está en el medio. Así que ahora estos datos están ordenados de menor a mayor. Aquí está dieciete. La cuenta del lado derecho, si miro simplemente la cuenta en cincuenta y uno y la divido por dos, estamos en veinticinco punto cinco. Así que el número del medio es el siete mil novecientos. Escribe el siete mil novecientos, lo que significa que por encima de él tienes veintinueve números por encima del uno al veinticinco. Y debajo de eso, tienes cincuenta y uno, la cuenta aquí, menos veintiséis, tienes veinticinco debajo, ¿verdad? Así que el que está exactamente en el medio es el setenta punto nueve cero cero. Así que recuerda, eso no siempre va a ser lo mismo, a menudo no será lo mismo que lo que será el cálculo de la media o el promedio. Estas son dos formas diferentes en las que estamos tratando de encontrar ese punto central. Entonces, si hicimos eso con una fórmula, en realidad hay dos fórmulas que puedes hacer en Excel, puedes usar la fórmula del cuartil, que sería el cuartil igual, y luego vas a elegir el conjunto de datos aquí. Así que esta es la matriz que el cuartil. Y es el cuartil dos para representar dos representa el cuartil dos o, más comúnmente, se usaría simplemente la función mediana. Así que solo tienes que seleccionar la función mediana y luego tomar este rango de datos y Excel elegirá el que está en el medio por ti. Muy bien, ahora que sabemos que es más fácil volver a los cuartiles, uno, que es este sesenta y nueve setecientos de nuevo, ¿qué significa eso? Bueno, lo estamos dividiendo en cuartiles. Así que la última vez, rompimos el medio, ese es el medio. Entonces, lo que va a ser el cuartil uno, va a ser que voy a tomar todo lo que va hasta esta línea y tomar el que está en el medio. Ahora van a preguntar si se ponen técnicos en esto, van a decir. Once cincuenta y dos. Bueno, voy de uno a veintiséis, y luego tomo el que está en el medio, incluida la mediana, o excluyo la mediana, y el valor predeterminado en Excel suele ser excluir la mediana, así que vamos a ir de uno a veinticinco, excluyendo la mediana, y luego tomaremos el que está en el medio, ¿verdad? Así que si tomo el veinticinco, si tomo el veinticinco, dividido por dos, estamos, ya sabes, doce, cinco, ahí está el sesenta y nueve. Doce veinticuatro. Siete, en el medio. Y eso significa que va a haber doce por encima. Así que tenemos números, del uno al doce por encima, y luego por debajo, podemos contarlos uno, dos treinta y cuatro, cinco sesenta y siete, ochenta y nueve diez mil ciento doce, sin incluir el veintiséis, la mediana aquí, porque está excluida. Doce cuarenta y ocho. Ahora, puede hacer el recuento de quartiles en el que incluye la mediana, pero el valor predeterminado es excluirla. Así que tienes que tener eso en cuenta cuando hagas tus cálculos. Muy bien, vamos a volver a subir, ahora, ahora estamos en el número medio. Y luego, por supuesto, tenemos el cuartil tres. Así que esa va a ser la parte superior de la caja. Tres y diez. Así que ese es el setenta y dos ocho, por supuesto. Y podemos pensar en cómo hacer eso si tuviéramos un cálculo manual, entonces tendríamos que decir, bien, este es el punto medio, la mediana, el cuartil dos, y este es el punto final. Así que ahora vamos a tomar el número del medio entre el medio de aquí y el final para el siguiente cuartil. Y eso sería entonces el sí tres, excluyendo la mediana. Y, por supuesto, hay una función para ello. Tres y cuarenta y uno. Y esa sería la función cuartil de nuevo, y excel igual que esta función de arriba, eligiendo este, este conjunto de números. Y luego con una coma, el argumento ahora es un tres, porque estamos en el cuartil tres, y luego tenemos el punto máximo que es el veinticuatro al veinticuatro. Dos, que es la parte superior del bigote. Y eso no incluye los valores atípicos. Entonces, si tuviera que hacerlo manualmente, puedo desplazarme hacia abajo y ordenar mis datos. Estos dos los hemos declarado atípicos. Así que está el veinticuatro, dos, que es la parte superior del bigote. Y si tuviéramos que hacer una fórmula para ello, puedes usar una función max, que es una función común, lo cual es genial. 14 veintisiete. Puede usar el máximo y luego seleccionar estos datos. Pero puedes, tendrías que seleccionar los datos que no incluyen los valores atípicos, de modo que elige es el máximo del número sin incluir los valores atípicos. Muy bien. Así que ahora hemos explicado toda esta caja y bigotes. Y si no tuvieras valores atípicos, eso es todo lo que tendrías. Pero aquí tenemos estos valores atípicos. Entonces, la siguiente pregunta es, ¿qué significa hacer un caso atípico? Ahora bien, esta descripción de un valor atípico es algo arbitraria. Estamos haciendo una especie de jurística aquí para decir, bueno, lo que haría que un número estuviera fuera del rango general, vamos a determinar qué es un valor atípico. Recuerde, los valores atípicos son realmente importantes porque, por ejemplo, si estuvieras tratando de determinar la riqueza promedio de alguien en un grupo en particular y tuvieras un individuo que resultara ser multimillonario en él, entonces esos multimillonarios obtendrían el promedio de todo el grupo, parecería que todos parecen mucho más ricos de lo que son, porque ese valor atípico podrías esgarlos. Así que tenemos que tener cuidado con los valores atípicos. Así que el rango de cuartiles intercuartílicos, este es el IQR. Esto nos va a ayudar a determinar los valores atípicos, vamos a, vamos a tomar el cuartil 3 menos el cuartil 1. Así que esto nos va a ayudar a determinar de dónde vienen estos valores atípicos. Entonces, si tomamos el cuartil 3 menos el cuartil 1, el cuartil 3 es el 7 a 800 menos el cuartil 169 700. La diferencia es que 3100, que llamamos el rango intercuartílico, el cuartil inferior, nuestro límite entonces es el cuartil 1, menos el IQR, el rango intercuartílico multiplicado por 1.5, lo cual es algo arbitrario, ¿verdad? Sin embargo, ese va a ser nuestro cálculo. Así que vamos a decir, muy bien, eso es lo que está calculando. Así que ahora estamos tomando la cu1. Así que cu1 es, bueno, hagámoslo, hagámos primero la parte de inter, el IQR, que es el 310 por 1.5, menos cu1 menos cu1, cu1 menos 697. Y eso nos da nuestro 6.550, es decir, 65.0500. Así que estamos en el límite inferior, así que cualquier cosa alrededor que esté por encima de esta línea, que se va a agregar en un formato de puntos. Así que ese va a ser el valor atípico. Y luego, aquí abajo, tenemos un cálculo similar para ese límite superior, donde tenemos el cuartil 3, más el IQR, el rango intercuartílico multiplicado por 1.5. Entonces, si tomo el IQR, el 3.1, multiplicado por 1.5, y luego, y luego lo voy a agregar esta vez a la pregunta 3. Así que mascu3, 7 a 800. Eso nos da nuestro 77.450, lo que significa que si hay algo por encima, como el 77, en algún lugar por aquí, les va a poner un A. Es por eso que estos dos están esbozados, está el 55 atípico, el 80 para el anuncio. Van a estar en el otro lado, 80 y 84 como valores atípicos en nuestros datos. Muy bien, y luego solo tenga en cuenta que en Excel, es posible alinear dos diagramas de caja en un gráfico. Entonces, si tuviéramos dos conjuntos de datos, conjuntos similares de datos, básicamente, simplemente hemos agregado una cantidad constante al segundo rango de datos. 1826. Y ahora solo noten que pueden hacer una buena comparación visual entre los dos conjuntos de datos, ¿verdad? Puedo decir, bien, este comparado con aquel, y podemos tener una idea de los promedios, y las medianas, y así sucesivamente, y qué tipo de valores atípicos, estos se reflejan entre sí muy de cerca, pero simplemente escalonados, debido al hecho de que creé la segunda lista de datos básicamente tomando las primeras veces como 1.1, o algo así, y luego puedes hacer tu leyenda en el lado derecho. Así que fíjate, cuando obtengas una comparación de múltiples conjuntos de datos como este, verlo visualmente, probablemente te dará una mejor comprensión, entonces, incluso si tuvieras que enumerar tus estadísticas, como podrías decir, oye, busca enumerar esos dos conjuntos de datos. Solo enumeraré mis estadísticas una al lado de la otra, eso es útil, pero todavía es un poco difícil de ver, ¿verdad? Si tienes estos dos uno al lado del otro, entonces eso te da una representación bastante buena de lo que está sucediendo. Quiero decir, si miro, por ejemplo, si mirar a las estadísticas una al lado de la otra para el promedio, el Q1, Q2, Q3, etcétera, etcétera, es posible que no tenga una idea de que parece que el conjunto de datos se ha multiplicado básicamente por 1.1. Pero si miro esto, puedo decir que se ve bastante simétrico. Y se movió hacia arriba de la misma manera y los valores atípicos se movieron hacia arriba en alineación con él, ya sabes. ¿Ves cómo la representación pictórica podría darte una idea más allá de la pila que a menudo está más allá del conjunto de datos en sí?