 Las estadísticas y la desviación estándar y la varianza de Excel, el gran impacto típico tiene datos, vamos a meternos en ello con las estadísticas. Por lo tanto, no es necesario que lo hagas, pero si tienes acceso a una nota, estamos en el icono, presentación de una nota del lado izquierdo 1446, desviación estándar y varianza. Gran impacto típico, también estamos cargando nuestra transcripción para que puedas ir a la pestaña ver la herramienta lector inmersivo, cambia el idioma si así lo desea, pueda leer o escuchar las transcripciones en varios idiomas diferentes utilizando las marcas de tiempo para vincularlas a la presentación de vídeo. La versión de escritorio de OneNote aquí tiene datos en el lado izquierdo, ya que son datos de salarios o ingresos que podemos imaginar que son para, por ejemplo, una corporación. Y presentaciones previas, hemos estado pensando en cómo podemos tomar conjuntos de datos para resumir esos conjuntos de datos de manera que podamos extraer significado de esos datos utilizando resúmenes numéricos, así como resúmenes pictóricos, resúmenes numéricos, incluidos nuestros cálculos estadísticos estándar, como la media, o promedio, el mínimo, el cuartil uno, la mediana, el cuartil dos, etcétera, etcétera, así como representaciones pictóricas como la caja y los bigotes, y el histograma. Ahora, el histograma en particular es en lo que nos estamos enfocando aquí, porque estamos buscando ver más de la propagación de los datos, en lugar de simplemente el punto medio de los datos, el histograma da una buena representación pictórica, pictórica. Ahora estamos buscando más de un cálculo matemático de ese mismo tipo de concepto, el estándar es que estamos usando la desviación estándar y la varianza, de la que hemos hablado en presentaciones anteriores. Lo que vamos a hacer ahora es tomar nuestros datos salariales y luego ver el impacto del valor atípico. Una técnica similar que hemos visto en el pasado, excepto que ahora hemos agregado, se agregan un par de cálculos, la desviación estándar y la varianza. Y veremos el impacto en esos números de un caso atípico. Entonces, si hacemos nuestros cálculos estadísticos normales que hemos visto en el pasado en nuestros datos salariales, y luego vamos a agregar otro, ya sabes, el millón de dólares que hay debajo. Pero tenemos un par, un par de cálculos nuevos aquí, la desviación estándar y la varianza. Así que la media, podemos hacer con nuestra función promedio, sumando todo dividido por el número de celdas, el mínimo, sería simplemente el número más pequeño en nuestro conjunto de datos. Tenemos el cuartil 1, el que está en el medio del primer cuartil. Y podemos usar esta fórmula en Excel para recoger la mediana, que también podría ser el cuartil 2. Podemos usar la fórmula del cuartil o la mediana, la fórmula de la mediana es más eficiente, es decir, elegir el conjunto del que está en el medio. Si tuviéramos que ordenar los datos en menor a mayor, por ejemplo, el cuartil 3, el medio del tercer cuartil, podemos usar una fórmula en Excel para elegir esa. Y luego tenemos el máximo, el número más grande en el conjunto de datos. Así que sólo a partir de estos datos, no podemos tener una gran idea de la propagación de los datos. Pero tenemos una idea general de ello. Porque tenemos estos cuartiles que nos dan un sentido general. Y también podemos ver si hay una gran diferencia entre, entre algo como la media y la mediana, por ejemplo, que podría ser una indicación de que haya un valor atípico. Así que esto nos da una idea de la propagación. Pero no nos da un sentido tan bonito como, por ejemplo, el histograma, el sentido pictórico, que nos da ese sentido visual. Y tenemos algunos otros cálculos que nos pueden dar una idea de los márgenes como cuál es la desviación estándar o mirar la desviación estándar de la población. Así que podemos sumarlos a nuestro tipo normal de estadísticas que podemos hacer en Excel con bastante facilidad con los iguales stdv.p, estamos recogiendo los datos en la tabla. Estamos viendo a toda la población como un voto, a diferencia de si fuera una muestra, que sería el punto S, en nuestra fórmula, y luego la varianza. Así que esta es la varianza, lo mismo, donde tenemos la población frente al estándar frente a la muestra. Así que estamos usando datos de población en este momento. Ahora, estos números en la parte superior probablemente le den una idea bastante intuitiva de los datos en sí mismos. Puedes decir, bueno, si estoy imaginando estos datos, la media, diría que es algo así como el punto focal de los datos. Este es el que está en el medio si fuéramos a alinear todo. Este es el medio del primer quartil medio del tercer quartil, el número más pequeño, el número más grande que me da una idea de la dispersión de los datos, la desviación estándar, puede no ser tan fácil de imaginar, pero puedes darte una idea de la distancia promedio desde el punto medio es el concepto. Así que es un poco más difícil de entender. Pero te da un tipo diferente de mirada o concepto de la idea de cómo son los números o qué tan cerca están de, ya sabes, ese punto medio, la varianza, obviamente se ven muy fuera de lo que pensarías, con el resto de estos números. Pero cuando se comparan diferentes conjuntos de datos, a veces esa varianza también puede ser una herramienta útil. Entonces, a menudo, cuando comparamos la varianza de dos conjuntos de datos diferentes, salarios similares para diferentes corporaciones, esa varianza puede ser útil. Y posiblemente profundizaremos más en eso en futuras presentaciones. Pero si miro un histograma, fíjate que el histograma nos da una idea más clara de la propagación, y luego, en general, el conjunto de datos de aquí, sólo la nueva red, los datos numéricos de estos cálculos, ¿verdad? Obtenemos, obtenemos un poco más de un sentido agradable, intuitivo y pictórico de la misma. Echemos un vistazo a la varianza. Y la desviación estándar. Si tuviéramos que calcularlo aquí, rápidamente, lo hemos visto en el pasado. Pero tenemos estas dos fórmulas, la varianza es básicamente un trampolín en el proceso de la desviación estándar, porque puedes ver que toda la varianza está debajo de aquí, para la desviación estándar. Y luego tomamos la raíz cuadrada. Entonces, si hiciéramos nuestros cálculos usando nuestras fórmulas, en lugar de la función y Excel, tomaríamos todos nuestros puntos de datos menos el punto medio. Es por eso que estamos teniendo una idea de cómo estos puntos están estructurados alrededor del punto medio, la media, que se calcula en ese 71 para 98, el promedio correcto, y entonces obtengo nuestras diferencias que no podrían ser más altas o más bajas. Así que recuerda, eso siempre será si sumo, mis diferencias llegan a cero. 7-14. Si estamos tomando números positivos y negativos, porque algunos van a ser más altos y más bajos. Y luego, en lugar de tomar el valor absoluto, los elevamos al cuadrado. Así que ahora los estamos cuadrando, como podemos ver aquí, lo que va a dar como resultado este gran número. Y si tomamos ese gran número dividido por el conteo del número de elementos, eso nos dará nuestra varianza, que sigue siendo un número grande. Y luego, si sacamos la raíz cuadrada de eso, eso nos dará nuestra desviación estándar. Así que ahí está nuestro 2007-51. Y se puede ver que nos da una idea de los dispersos que están los datos alrededor del punto de apoyo importante, la media. Así que ahora hagámoslo de nuevo. Pero esta vez agregué un millón de dólares abajo, eso es lo que vamos a imaginar una vez más que es el salario del CEO. Así que ahora tenemos este gran salario atípico. Si miro mis cálculos, si miro mi cálculo promedio, en comparación con este promedio, entonces podemos ver que el promedio se ve afectado por el valor atípico. Así que, una vez más, vamos a pensar en qué números se ven afectados por el valor atípico y cuáles no. ¿Y cómo afectará eso a nuestro atoma de decisiones? El número mínimo sigue siendo el mismo, porque el valor atípico no está en el extremo inferior. Si lo fuera, entonces el número mínimo nos daría una indicación si tuviera un número mínimo que fuera como un peso. Porque el CEO, imaginemos que dijo, voy a tomar un salario de un peso, a menos que la empresa obtenga ganancias, gane más dinero que entonces, tal vez solo obtenga un peso. Y ahora tienes un valor atípico en el extremo inferior, que posiblemente podría darte una indicación de que el promedio está siendo arrastrado hacia abajo, y luego el cuartil 1 es como la mitad de ese primer cuartil. Aquí es un poco diferente. Pero es similar porque es resistente, es más resistente a un gran valor atípico. Entonces, si hay un gran valor atípico, los cálculos del cuartil 1, el cuartil 2, o la mediana y el cuartil 3, van a ser indicaciones más fuertes posiblemente de lo que podríamos estar buscando. Si estamos buscando conseguir un trabajo en este lugar, entonces la media podría no ser la que hay que mirar. Si pensamos en nosotros mismos como una especie de empleado promedio, los números del medio son posiblemente los mejores para usar en ese caso, posiblemente. Ahora, si estás argumentando a favor de un aumento de sueldo o algo así, entonces puedes usar la media, el promedio, porque es más alto y vas a tratar de hacer tu argumento, aunque quiera ser honesto, ya sabes. En el argumento y no parecer engañoso, ya sabes, pero en cualquier caso, lo máximo que puedes ver es mucho más alto, porque ahí es donde está nuestro valor atípico. Así que tenemos esta gran diferencia entre estos dos. Fíjate que también tenemos una gran diferencia entre la media o no es grande, pero es bastante grande entre la media y la mediana, que es la indicación de que podría haber un valor atípico. Así que esta diferencia entre el promedio y la mediana. 10-18. Además de esta gran diferencia entre el promedio y el máximo, nos van a avisar de que va a haber un valor atípico, que va a tener un impacto en el conjunto de datos. Y luego tenemos la desviación estándar, que se ve sustancialmente afectada. Bien, entonces el estándar así y este va a ser el principal, el principal punto nuevo aquí, la desviación estándar y la varianza también se ven significativamente afectadas por un valor atípico. Derecha, entonces, cuando tratamos de analizar esos, esos números también, tenemos que tenerlos en cuenta. ¿Qué pasa con los valores atípicos? ¿Cuál es nuestro objetivo aquí? ¿Y qué tipo de impactos están teniendo esos valores atípicos en nuestros números? Números. ¿Y cómo queremos lidiar con eso? Así que tienes el mismo tipo de problema, como con el histograma que vimos en una presentación anterior, donde, donde tienes esto, estos son los números agrupados. Y si tengo este valor atípico grande y mantengo las cajas, suficientes cajas, para que podamos ver el valor atípico, entonces, obviamente, el histograma parece, ya sabes, no muy útil. Pero se puede llegar al punto de que los valores atípicos realmente sesgan los datos, el punto de apoyo de la media está muy por aquí, en algún lugar de este valor atípico está poniendo mucha influencia en él, ya sabes, en el exterior. Ahora, de nuevo, puedes hacer tus histogramas para que ese valor atípico, todo lo que supere ciertos puntos es un valor atípico. Por lo tanto, se podría decir que todo lo que supere los 90.000 está en el valor atípico. Así que tienes un histograma que se ve relevante, se ve bien aquí porque eso te mostrará el punto medio de los datos y los valores atípicos en un punto determinado. Pero el punto aquí es que tenemos que tener en cuenta lo que ese valor atípico va a hacer cuando miramos ciertos conjuntos de datos, y luego preguntarnos qué queremos hacer con ellos. Queremos recortar el valor atípico. Y luego mira cuáles serían estos números, estos cálculos, incluyendo la desviación estándar y la varianza. Si hemos eliminado el valor atípico, quiero confiar en los cálculos ecuartiles, para que el valor atípico no tenga ese tipo de impacto, y así sucesivamente, ese es el tipo de decisiones en las que hay que pensar. Ahora, si hiciéramos nuestro mismo cálculo aquí, el camino largo. Con nuestra desviación estándar sería el salario menos la media, esta es la diferencia. Y luego los cuadramos. Fíjate, esto te da una buena indicación de lo que está pasando aquí. Porque ahora piensas, espera un segundo, la media es ahora 89356. Así que todos mis datos, cada punto de datos, está por debajo de la media, ¿verdad? Todo está por debajo de la media hasta que llego a ese millón. Y ves como eso te da una mejor idea de lo que es así a veces, en realidad, hacer los cálculos de esta manera te da una mejor idea de lo que está sucediendo a veces también, es bastante fácil de hacer, puedes decir, bueno, espera un segundo, esto se ve un poco divertido. Y luego y luego los valores atípicos, el único que está por encima de la media, porque eso te muestra ese tipo de efecto de punto de apoyo, donde ese gran valor atípico está teniendo mucho tirón, y luego y luego vamos a decirlo, así que si elevamos la diferencia al cuadrado, así que este es este número, y luego vamos a decir que el conteo es 52. Así que dividimos por el conteo para obtener la varianza, y luego sacamos la raíz cuadrada, y eso nos da 127545. Los mismos 127541, 27545 que teníamos aquí.