 0. Las estadísticas y la desviación y varianza estándar sobresalen, gran impacto típico, prepárese respirando profundamente sosteniéndolo durante 10 segundos y esperando una exhalación más suave y relajante. Aquí estamos en Excel. Si no tiene acceso a este libro, está bien porque básicamente lo construiremos a partir de una hoja de cálculo en blanco. Pero si tiene acceso a tres pestañas abajo, ejemplo, practique el ejemplo en blanco, en esencia, responda a la pestaña práctica clave que tiene celdas preformateadas, para que pueda llegar directamente al corazón del problema de la práctica, una hoja de trabajo en blanco con solo nuestros datos. Así que podemos practicar el formato en las celdas dentro de Excel a medida que trabajamos en el problema de práctica. Si no tiene este conjunto de datos, puede escribirlo allí, porque no es un conjunto de datos muy largo. También puede crear un conjunto de datos similar si así lo desea, o puede buscar conjuntos de datos en línea, posiblemente consultarlo atlodarkamble.com. Para los conjuntos de datos de práctica, vayamos a la primera pestaña para tener una idea de lo que haremos. Estamos viendo nuestros datos salariales. Una vez más, haremos cálculos similares que hicimos en presentaciones anteriores, calculando el promedio, pero nuestro enfoque principal aquí será la varianza y la desviación estándar. Y luego agregaremos valores atípicos a nuestro conjunto de datos para analizar el impacto de esos valores atípicos. A medida que hacemos nuestros cálculos, la comprensión del impacto de los valores atípicos es muy importante cuando intentamos analizar datos. Así que vayamos a la pestaña en blanco a la derecha, voy a eliminar la cosa de CAC y aquí voy a desplazarme un poco, un poco manteniendo presionado el control desplazándome un poco, estamos en un 250%. Vamos a formatear toda la hoja de trabajo primero, como lo hacemos cada vez que voy a ir un poco más rápido esta vez porque la parte inicial de esto se verá similar a otros problemas de práctica, y luego agregaremos el valor atípico. Así que voy a seleccionar toda la hoja de trabajo, haga clic derecho en el formato de las celdas, luego voy a ir al grupo número. Me gusta hacer que los números negativos de moneda estén entre corchetes y rojos eliminando el signo de dólar y los decimales solo abregando decimales según sea necesario. Bien, hagamos que toda la hoja esté negrita, grupo de fuentes de pestaña de inicio, todo ha estado enegrita y es demasiado audaz. Es demasiado audaz, señor, y luego vamos a entrar en los datos aquí. Pongamos una mesa allí, entremos en la pestaña insertar, entremos en las mesas y pongamos un baile de mesa bailando haciendo su baile de manbe para hacer que la lluvia no sucediera que no era un baile de lluvia. Ese es el baile de mesa. Así que pusieron una mesa alrededor con ese baile. Y luego pondremos la B flaca hagamos una B delgada y hagamos nuestros cálculos de tipo estadístico estándar, así que podríamos tener la media o el promedio, primero haremos el cálculo de la media, porque quieres vigilar al acosador en el malo. Así que ese es el promedio. Y luego también vamos a hacer una C grande y haremos lo que haremos el min, haremos el q1, haremos la mediana, que es como q2, haremos q3, cuartil 1, 2 y 3 mediana también podría llamarse q2, derecha q2, como hemos visto en el pasado. Y luego diremos que vamos a tener el máximo y ahora estamos agregando la desviación estándar para la población, voy a decir para pop, y luego no para tu padre ni nada más que para la población, y luego estándar o no, las variantes de varianza de varianza para pop en lugar de la muestra. Así que hagámoslas muy rápido, solo con las funciones en excel, ya tenemos todas estas funciones geniales en nuestro haber. Nuestro cinturón se está apretando bastante, todas estas herramientas están cabando en mi vientre, necesito conseguir un cinturón más grande con todas las cosas de bajo. Así que vamos a decir que esto va a ser igual a la media. En realidad, el promedio promedio, promedio, eso es una v a, mis dedos son el promedio. Y luego seleccionaremos nuestros datos. Haré esto rápidamente. Hemos visto esto en el pasado, seleccionando los datos con solo el menú desplegable, así que muy rápido, podemos hacer esto, podemos decir que este va a ser el min, chef 9, mi mouse ya está en ese punto de datos, ella va a hacer click en el cuartil de datos y boom. Así que solo voy a poner cuartil o tengo que tener una pestaña igual y luego cuartil, seleccionar en la fórmula, elegir la matriz simplemente haciendo click con el mouse. Voy a poner una coma porque necesito otro argumento aquí, y eso va a hacer que tiene que ser un 1 para q1 cuartil uno podría hacer lo mismo para el cuartil 2, pero es más común usar la pestaña de cálculo de mediana, seleccionando los datos, no necesito poner un 1 al lado porque la mediana significa cuartil 2, y luego es igual al cuartil 3, recogiendo nuestros datos, este necesita un segundo argumento, por lo tanto, una coma, y un número 3, para el cuartil 3, boom. Y aquí están nuestras nuevas fórmulas aquí que podemos recoger la desviación estándar esto para la población en lugar de la muestra, por lo que es igual a asti. Así que queremos esta desviación estándar, esta para la población, y para el punto p en el, y luego boom, y luego queremos que la varianza sea igual a la varianza. Con la p, mira todas esas cosas en nuestro haber. Tenemos nuestros cinturones que van a ser más grandes que los de Batman con todas estas cosas allí. ¿Cuáles son las herramientas de utilidad que tenemos me faltó el máximo? Vamos a que esto va a ser igual al máximo. Y recogeremos el máximo. Muy bien, ahí están nuestros datos, pongamos algunos bordes azules alrededor de esto seleccionando todos los datos, pestaña inicio, grupo de fuentes despegando el color, si no tienes ese azul, y lo quieres, entras en el estándar de más colores, eso es el azul allí mismo, bien, y luego pongamos algunos bordes de fan groupas alrededor, el borde y el azul. Muy bien, podemos poner un histograma si queremos seleccionar los datos y así lo deseamos. Y seguro que nuestro histograma, tenemos los histogramas en nuestro cinturón 2, tenemos entonces estos están en nuestro haber. Es como, hay como un montón de cosas geniales. Y hay como la navidad, todas esas cosas bajo el cinturón tenían más cosas en mi haber que debajo del árbol de navidad cuando era niño por llorar en voz alta. Bien, seleccionemos nuestros datos aquí. Y pongamos los contenedores en un levin a levin y cerremos esto. Bien. Así que ahora hagamos nuestro, vamos a ir a la varianza y la desviación estándar ahora. Así que iremos a la derecha, y haremos nuestra varianza y nuestra desviación estándar. Y quiero calcularlo con un método con una tabla como hemos visto en el pasado, en lugar de solo la función, porque creo que eso nos da una idea más intuitiva de lo que son la varianza y la desviación estándar. Y luego agregaremos el valor a tipo típico. Así que voy a decir que pongamos nuestra fórmula de varianza, simplemente escribiré la fórmula de varianza, para que podamos tener una idea de ella. Así que copia, solo voy a copiarlo. No lo volveré a escribir, pero recuerde, si lo desea, puede ir a la pestaña insertar, puede ir a la ecuación y puede escribir su fórmula, usaría la tinta aquí para hacerlo. Pero solo voy a hacerlo naranja. Y veamos si puedo hacerlo, no lo hago tan grande en estos días. ¿Por qué lo hemos visto antes? No reduciré a como doce. Y ahí lo tenemos. Vamos a conseguirlo, entonces haré de esto un encabezado, una pestaña de inicio, un grupo de fuentes que lo hagan blanco y negro. Y entonces ésta será la desviación estándar, la desviación estándar para el pop para la población, no tu padre para la población, tu padre podría estar en la población. Quien sabe, pero no es específicamente para tu pop. Muy bien, así que vamos a decir que esto va a ser aquí hasta el 5 de julio, lo pondremos aquí. Lo tenía en doce en la fuente, hagamos esta fuente doce a doce. Oh, pa, tan dulce doce. Y ahí lo tenemos. Bien, entonces, agreguemos nuestra tabla. Así que voy a volver atrás, voy a recoger nuestro conjunto de datos, voy a seleccionar toda la columna A, que recogerá toda la tabla, y volver a pegarla aquí y volver a pegar. Y lo pondré en la columna QCTRL-V, estoy usando el teclado esta vez, voy a hacer una P delgada, P delgada. Y luego vamos a decir que lo comparen. Así que ahora voy a hacer mi cálculo de esta manera, calculando la varianza. Así que voy a tomar la distancia de cada punto de datos amu o el promedio o la media y luego lo cuadraremos justo que va a ser el numerador. Así que voy a decir que esta va a ser la media que dim va a ser igual a hagamos ese cálculo de media en el que golpeamos la columna de salarios en la cabeza con nuestro cálculo medio, porque somos principales, es la principal. Así que esto va a ser promedio, lo haremos con un promedio, que no es tan malo como un nombre de función. Y luego diremos que estas van a ser las hormigas bailarinas de aquí. Así que está nuestro promedio hasta el final de la media hasta el final, y luego vamos a tomar la diferencia, la media va a reducir el salario. Cuando comparamos los dos vamos a sacar los medios sacados la diferencia del salario, boom, ahí está nuestra columna de diferencia, y luego vamos a cuadrar las diferencias. Así que obtenemos todos los números positivos y luego al cuadrado. Así que vamos a decir que cu salió al aire, así que básicamente estamos completando la parte superior de nuestra fórmula aquí. Así que vamos a cuadrar esto igual, y vamos a recoger esa diferencia y llevarla a la zanahoria de tan al poder de dos cuadrándola. Así que voy a decir que está bien, así que ahí lo tenemos. Así que ahora hemos cuadrado nuestros números, así que ahora tenemos básicamente, ese es un gran número allí mismo. Así que hemos tomado, hemos hecho esta primera parte de la parte superior, ahora solo necesitamos resumirlo, correcto, así que ahora vamos a resumirlo, y tendremos nuestro numerador, podría hacerlo bajando. Voy a entrar en mis opciones de tabla aquí, ir a mis herramientas de tabla, agregar la columna total. Y hagamos de este el promedio. Así que voy a promediar en lugar de sumar, haré de esto un promedio. Así que ese conteo, ese es nuestro promedio, nuevamente, este va a ser, entonces contemos aquí, porque no necesito sumar esto, así que el conteo funcionará allí. Esta, resumamosla solo para darnos una doble verificación de que debería sumar cero. Y esta es nuestra suma de los números al cuadrado, que ahora tomaremos para llegar a la varianza, tomaremos ese número y lo dividiremos por el conteo, así que voy a tomar la diferencia cuadrática de la media, que es igual a este número, y la dividiremos por el conteo. Así que voy a decir que esa cosa dividida por el conteo, el conteo, que está representado en por n, en nuestra ecuación, calculamos el conteo en 51 de estos elementos, pongamos un subrayado debajo, grupo de fuentes hontab debajo de la línea. Y luego vamos a decir que tenemos la varianza. Esto es esto es Qo sigma 2, insertemos la ecuación de un símbolo. Y el sigma está bajo el griego y el gótico. Estoy en texto normal, pero ya lo tengo aquí abajo en las áreas recientes. Así que voy a recoger ese, sigma, boom. Y luego voy a poner enter y luego volveré a él y veré si pongo un 2, es un 2 normal resaltando los dos, haciendo clic derecho sobre él, formateando las celdas a un subíndice e ingreso, así que ahí está, boom. Así que ahora voy a decir que esto es igual a este número dividido por el 51. Así que ahí lo tenemos, y luego la desviación estándar, están, la tercera desviación para la población pop, voy a decir de sigma. Así que voy a decir insertar símbolo, haciendo que otro inserto sigma se vea bien. Tengo dos de ellos ahora, lo que sea, solo quiero uno. No es doble sigma. De todos modos, entonces vamos a tomar la raíz cuadrada. Así que esto va a ser igual a la raíz cuadrada, que es sqrt función de ese número. Y luego obtenemos ese 2.751. Bien, hagamos eso, que hemos visto eso en el pasado. Vayamos a la pestaña inicio, grupo fuente, vamos a hacer esto azul y bordeado. Entonces, ahora lo que queremos hacer es decir bien, bueno, que pasa si agregamos un valor atípico, un gran valor atípico, como el salario del CEO a todo este cálculo, así que tomemos nuestro mismo conjunto de datos aquí, podría ser más fácil copiarlo de esta tabla a la derecha. Así que copiaré todo este conjunto de datos y la columna a nuevamente, haga clic derecho y copie. Voy a ir todo el camino de regreso. Y luego voy a decir está bien, insertemos clic derecho y derecho y pegue y luego voy a ir al fondo del pozo. Podríamos hacer un flaco, vamos a hacer un flaco, que ya estás flaco bien, y luego voy a poner un valor atípico, voy a poner un millón o no. Así que ahora tenemos este gran valor atípico aquí, lo hemos agregado a nuestra mesa ahora. Así que ahora, si hice mis cálculos, vamos a hacer, vamos a hacer nuestro mismo conjunto de números, voy a ir a la izquierda, y voy a copiar solo, vamos a copiar los nombres, y no los números reales. Así que voy a copiar esos cálculos, y los rearemos. Ahora que tenemos este valor atípico, y podemos ver cuáles de estos tienen un impacto en ellos y cuáles no. Así que voy a hacer una W más pequeña, W, esquinar 5 W delgadas, y luego peguemos esto, hagamos una X más grande al lado de la Y. Y luego vamos a decir que el promedio va a ser igual al promedio, haremos esto, nuevamente, haciendo doble click, recogiendo el promedio ahora, incluido el valor atípico de que un millón tiene un impacto. Como hemos visto en presentaciones anteriores en promedio, hagamos que ese valor atípico sea realmente grande, solo para que podamos ver realmente si hago esto como los EOS que ganan, ya sabes, sesenta mil. Y se quejan de ello, porque no se les paga lo suficiente o algo así. Y es como lo que sea que los EOS vayan a la huelga, y como, de lo que sea. Y luego, pero los hombres, si calculo a los hombres, vamos a decir que no se ve afectado, cierto, el sesenta y siete nueve sigue siendo sesenta y siete nueve. Así que los pequeños que todavía están ahí abajo haciendo que puedan hacer lo que sea y luego tenemos igual al cuartil, cuartil uno. Así que voy a seleccionar los datos y poner una coma. Y nuevamente, uno pensaría que esto se vería menos afectado, agregamos otro número, que cambiará las cosas cuando intentamos contar, como si estuviera tratando de ordenar las cosas, y contar los cuartiles y la mediana. Pero, de nuevo, uno pensaría que el que está en el medio sería más estático, si hay este gran tipo de cosas atípicas, ¿verdad? Así que lo mismo con una mediana, así es igual a la mediana, elíjala del medio, si tuviéramos que ordenarlas, y elíjala del medio, entonces si pensaran su salario real, pensaría que ésta sería más precisa que la derecha promedio en estas, estas son menos afectadas por el por ese valor atípico, mientras que la media se ve afectada. Entonces, si digo cuartil tres, cuartil de datos, coma, tres, lo mismo, y luego el máximo es igual al máximo, el número más grande ahora el máximo obviamente se ve afectado por el valor atípico, en este caso, porque el valor atípico está en el lado alto, mientras que el mínimo no se vio afectado por el valor atípico porque el mínimo está en el lado bajo. Pero si el mínimo se vio afectado, como si alguien estuviera ganando un peso, tal vez tuvimos un CEO como ése estaba tratando de hacer crecer la compañía como Steve Jobs o algo así, hizo un trato que decía, sólo voy a ganar un peso, a menos que comencemos, ya sabes, a ganar más dinero o algo así. Y luego no ganaron más dinero, a diferencia de lo de Steve Jobs, ¿verdad? Y luego no solo ganan el ahora, los CEO solo ganan un peso derecha. Y eso sería un valor atípico en el lado bajo. Pero en cualquier caso, si tuviéramos la desviación estándar igual a la desviación estándar, estamos recogiendo la población y seleccionando los datos, llegamos a 8,230. Así que puedes ver que eso se ve sustancialmente afectado por el valor atípico. Entonces, cuando tratamos de elegir este número, obviamente, ¿qué tipo de lo que estamos haciendo, como vimos, cuando observamos la desviación promedio, estamos, en esencia, ya sabes, tomando el promedio con una media de las distancias de la media. Así que uno pensaría que va a haber un impacto en ese número desde el valor atípico. Así que eso es algo que, obviamente, tenemos que tener en cuenta cuando estamos usando nuestra desviación estándar, lo mismo con una varianza. Entonces, si tomo la varianza para la población, vamos a ver que ese valor atípico nos dará un gran cambio en la varianza. La varianza está aquí, porque ese es ese número al cuadrado, mientras que la varianza aquí era ese 7, correcto, así que hagamos eso. Otra vez. Así que voy a, voy a poner mi cursor aquí, hagamos esto entre corchetes y azul. Y cambiémos ese valor atípico, en lugar de convertirlo en 60 millones, hagamos que sea un millón. Así que ahora es el que todavía tienes un impacto, pero no es tan extremo, tomemos nuestros datos y recordarás que cuando ingresamos un histograma, esto va a tener un impacto en el histograma. Si voy al inserto, y digo, hacer un histograma. Vamos a poner esto aquí insere que paso como la histórica RA, vamos a decir, borra esto. Y entonces, como si pudiera entrar en mi histograma. Y lidiar con ese valor atípico yendo a mis cubos y diciendo que quiero que ese valor atípico se agrupe en mi histograma en algún lugar alrededor de la parte superior. Así que podría decir que en 90.000. Así que ahora tengo, no, tengo un éxito. Y luego podría aumentar mi número de cubos a los 11 cubos. Y ahora tienes algo que es manejable, a pesar de que tienes ese gran valor atípico, ahí fuera, verdad? Pero si yo, si elimino eso, y luego pongo mis cubos aquí como 450, o algo así, solo para que puedan ver que los datos, los extremos de los datos, todo está más o menos aquí, y luego tienes esos valores atípicos, pesan en el lado derecho que tiene que tiene un impacto. Entonces, si piensas en si piensas en donde está el tambaleante, o donde está el punto de apoyo, y esto es como un tambaleante, está en 80.000. Correcto, es ese punto medio, pero este lo está tirando mucho, porque es como, es como el niño sentado en el otro extremo del tambaleante. Y, por lo tanto, tiene un impacto debido a la palancamiento al final. Entonces, tomemos nuestro mismo conjunto de datos aquí y hagamos ese cálculo, la desviación estándar y la varianza con nuestro formato de tabla. Así que copiaré toda esta columna V, haciendo clic en la columna V, haga clic derecho y copie, copie la columna V, y luego vamos a pasar aquí a la columna ahí, la columna de IA, pero no lo estamos haciendo completamente con IA. Pero la IA está ayudando, supongo, con Excel. Pero todavía estamos pensando en ello aquí. No está completamente automatizado, pero en este momento. Así que tenemos nuestros mini incluidos allí, vamos a comparar el salario con la media, nuevamente, para que la media sea igual al promedio, seleccionando todo el conjunto de datos para calcular el promedio. Estamos comparando la media. Así que tomaremos la diferencia. Diferencia de diferencia, porque eso significa cálculo. La diferencia va a reducir el número de salario porque es malo. Así que vamos a tomar el salario menos el malo. Y ahí estamos. Y ahora tenemos las diferencias con la media. Y pueden ver que todos son negativos, cierto, excepto ese un millón. Así que pueden ver, eso es, eso es una especie de indicación. Observe cómo eso le da una idea de los datos más que solo calcular la desviación estándar y la varianza allinismo. Porque piensas, está bien, espera un segundo, es posible que hayas visto ese un millón. Pero si lo calculas de esta manera, piensas, o, está bien, entonces algo racioso está sucediendo, porque todo es negativo, hasta que llegas a ese número que realmente lo resalta. Especialmente cuando hacemos que los números negativos se lean y pongan entre corchetes como lo hemos hecho aquí. Así que en cualquier caso, vamos a decir, entonces tenemos que tomar el cuadrado cuadrado de estos iguales a ese número de cambio de intercalación 6, para llevarlo a la potencia de 2, el poder detengo el poder de 2. Está bien, me dejé llevar un poco por el calor y el flashback con los maestros del universo, pero luego arruinaron eso cuando arruinaron todo. Creo que hicieron un remake. Ni siquiera veo el remix de nada. Están arruinando todo a propósito. Está bien, está bien. No voy a entrar en eso en este momento, esas son herramientas de tabla de historia diferentes en el diseño de la tabla, tenemos las opciones de estilo de tabla, y vamos a totalizar la tabla. Hagamos que el promedio en este caso, como hemos visto antes, hagamos que este cuente el conteo, y hagamos que este sea la suma, debe sumar cero. Así que nos da esa doble verificación. Y esta es la suma. Muy bien, ahora lo que queremos hacer es que vamos a hacer nuestro cálculo de varianza. Así que voy a tomar la diferencia al cuadrado de la media, solo estoy bajando este número, es igual a ese número. Y luego vamos a dividir eso por esto. Así que puedo poner la división por el conteo, que está representado por una n. Y eso es igual al 52 que obtuvimos en nuestra tabla arriba y luego la varianza, que va a ser el sigma al cuadrado, insertar, símbolo sigma, que está en el griego y el copto gub, pero lo tengo en mi recientemente, insertar, cerrar la cosa, entrar y luego volver a ella agregar los dos, por lo que no hace un formato de fuente loco y luego entra en él, haga clic derecho en formato y conviértalo en su índice. Bien, ahora tenemos toda la simbología del símbolo genial. Y luego tomaremos esto dividido por esto, y obtendremos nuestra varianza. Y luego vamos a tomar la raíz cuadrada de eso, que nos dará la desviación estándar, que es solo un sigma, que puedo ir a los símbolos insertar y simplemente agregar el buen sigma. Y luego eso va a ser igual a la raíz cuadrada, la función SQRT de eso, y entrar. Así que ahí lo tenemos. Una vez más, esto está siendo afectado por así que pongamos nuestra pestaña inicio, grupo de fuentes, bordes y azul. Ahora, podemos ver que tenemos que tener cuidado con la varianza y la desviación estándar cuando tenemos estos valores atípicos. Porque a menudo, estas herramientas van a ser, pongamos un subrayado en la pestaña todo el hogar, grupo de fuentes en a menudo, estas herramientas, las usaremos cuando comparemos diferentes tipos de conjuntos de datos. Así que ahí es cuando se vuelve más claro cuando digo, bueno, la variación es esta. Bueno, eso podría no ser tan útil hasta menos que esté comparando diferentes conjuntos de datos. Y luego la varianza será diferente en relación con nosotros conjuntos de datos. Pero a medida que hacemos ese tipo de proceso de pensamiento, debemos tener en cuenta que, por supuesto, tanto la varianza como la desviación estándar se verán afectadas por el valor atípico. Así que siempre estamos teniendo en mente, ¿cuándo estamos tratando de hacer análisis que vamos a hacer con esos valores atípicos? ¿Debería hablar de nuestros conjuntos de datos con la media? ¿Sería más útil para mi pensar en algún tipo de punto medio, como los quartiles o la mediana, debido a esos valores atípicos? Si estoy pensando en algo como los salarios y cuál sería el salario promedio o cuál sería un salario representativo, si iba a entrar en una empresa o algo así, y luego si quiero hacer comparaciones del diferencial, como la desviación estándar y la varianza y otras cosas, entonces, nuevamente, tengo que tener en cuenta, ¿cuál será el impacto de esos valores atípicos y cómo lidiar con eso para poder hacer comparaciones que representen datos útiles para la toma de decisiones?