Modulo #2_Estadistica Descriptiva Univariada

mayo 24, 2022

Modulo #2_Estadistica Descriptiva Univariada

Medidas de Tendencia Central:

Las medidas de tendencia central son parámetros estadísticos que informan sobre el centro de la distribución de la muestra o población estadística.

A veces, tratamos con una gran cantidad información. Variables que presentan muchos datos y muy dispares. Datos con muchos decimales, de diferente signo o longitud. En estos casos, siempre es preferible calcular medidas que nos ofrezcan información resumida sobre dicha variable. Por ejemplo, medidas que nos indiquen cuál es el valor que más se repite.

Sin perjuicio de lo anterior, no hay que irse tan lejos. Si miramos la siguiente tabla que muestra el salario que cobra cada uno de los trabajadores de una empresa que fabrica cajas de cartón, tendremos lo siguiente:

Trabajador	Salario
1	€ 1.235
2	€ 1.002
3	€ 859
4	€ 486
5	€ 1.536
6	€ 1.248
7	€ 1.621
8	€ 978
9	€ 1.125
	768Alguien podría preguntarse, ¿cuánto gana el trabajador promedio de esta empresa? En ese caso las medidas de tendencia central nos podrían ayudar. Concretamente, la media. Sin embargo, a priori, lo único que sabemos es que el número estará entre el mínimo y el máximo ¿Para qué sirven las medidas de tendencia central? Las medidas de tendencia central, como es obvio, persiguen una serie de objetivos que justifican su existencia. En primer lugar, las medidas de tendencia central sirven para conocer en qué lugar se ubica el elemento promedio, o típico del grupo. Imaginemos que queremos saber qué grupo de música es el favorito de la clase. Para ello, podemos utilizar la moda. Asimismo, las medidas de tendencia central sirven para comparar, así como para interpretar los resultados obtenido con relación a los distintos valores observados. Imaginemos que la nota media de los alumnos de una clase se sitúa en el 7, mientras hay alumnos que se sitúan en el 3. También, las medidas de tendencia central sirven para comparar e interpretar el valor de una misma variable en distintas ocasiones. Imaginemos que valor medio de una variable no es representativa, por lo que podemos complementar con el valor mediano para extraer una imagen fiel. Por último, este tipo de medidas sirven para comparar los resultados con otros grupos, atendiendo a estas mismas medidas de tendencia central. Imaginemos que queremos comparar la calificación media entre las distintas clases de un colegio. La media nos permite compararlas y saber qué clase saca mejores notas. Medidas de tendencia central A continuación, veamos las principales medidas de tendencia central, así como las distintas fórmulas que permiten calcular dichas medidas en cualquier caso. Estas medidas son la media, la moda y la mediana. La media aritmética: La media aritmética es el promedio o medición de tendencia central de uso más común. Se calcula sumando todas las observaciones de una serie de datos y luego dividiendo el total entre el número de elementos involucrados. La expresión algebraica puede describirse como: Un ejemplo: Calcular la media de 2, 4, 6, 7, 9 N= 5 (el número de datos) Aplico la fórmula y queda la sumatoria de 2, 4, 6, 7 y 9, siendo igual a 28, dividido por la cantidad de datos, es decir, dividido por 5. La media, entonces, es igual a 5,6. La mediana: La mediana es el valor medio de una secuencia ordenada de datos. Si no hay empates, la mitad de las observaciones serán menores y la otra mitad serán mayores. La mediana no se ve afectada por ninguna observación extrema de una serie de datos. Por tanto, siempre que esté presente una observación extrema es apropiado usar la mediana en vez de la media para describir una serie de datos. Para calcular la mediana de una serie de datos recolectados en su forma sin procesar, primero debemos poner los datos en una clasificación ordenada. Después usamos la fórmula de punto de posicionamiento: Para encontrar el lugar de la clasificación ordenada que corresponde al valor de la mediana, se sigue una de las dos reglas: Si el tamaño de la muestra es un número impar, la mediana se representa mediante el valor numérico correspondiente al punto de posicionamiento, la observación ordenada es (n+1)/2 Si el tamaño de la muestra es un número par entonces el punto de posicionamiento cae entre las dos observaciones medias de la clasificación ordenada. La mediana es el promedio de los valores numéricos correspondientes a estas dos observaciones medias La moda: La moda o modo es el valor de una serie de datos que aparece con más frecuencia. Se obtiene fácilmente de una clasificación ordenada. A diferencia de la media aritmética, la moda no se ve afectada por la ocurrencia de los valores extremos. Ejemplo: Los valores siguientes son las calificaciones de un alumno durante todo el año 7; 8; 9; 7; 9; 8; 8; 8; 7; 8 Podemos afirmar entonces que el modo es igual a 8, dado que es el valor que aparece con más frecuencia. El rango medio El rango medio es el promedio de las observaciones menores y mayores de una serie de datos. El rango medio a menudo es usado como una medición de resumen tanto por analistas financieros como por reporteros meteorológicos, puesto que puede proporcionar una medición adecuada, rápida y simple para caracterizar toda una serie de datos, como por ejemplo todo una serie de lecturas registradas de temperatura por horas durante todo un día. El eje medio Como última medida de tendencia central, mencionamos al eje medio, que es el promedio del primer y tercer cuartil de una serie de datos. Es decir: Eje medio: (Q1 + Q2) / 2 Siendo Q1 y Q2, el primer y segundo cuartil. En conclusión podemos decir que es una medición de resumen usada para zanjar problemas potenciales introducidos por los valores extremos de los datos. Medidas de posición Las medidas de posición son indicadores estadísticos que permiten resumir los datos en uno solo, o dividir su distribución en intervalos del mismo tamaño. Las medidas de posición, por tanto, sirven para medir y para dividir. De esta forma, unos resumirán los diferentes valores en uno que, en este caso, sea representativo. Por ejemplo, un promedio. Mientras los otros dividirán el conjunto de los datos en partes iguales, más sencillas de interpretar; estaríamos hablando de los cuantiles. Importancia de las medidas de posición estadística Son el primer paso que debe darse en el análisis descriptivo. Cuando queremos conocer información sobre un fenómeno, comenzamos recopilando datos. Pero estos, por sí mismos, no nos van a aportar información relevante, por eso hay que analizarlos. Las medidas de posición, junto con las de dispersión, nos ayudan a agruparlos e incluso, a codificarlos. Estos son el conocimiento principal y básico en estadística. De hecho, las clases universitarias de introducción se centran en ellas. Si no sabemos qué es un promedio, es más que probable que no sepamos entender otros conceptos como la regresión o el contraste de hipótesis. Por este motivo, es uno de los conocimientos esenciales en ciencias como la económica. Medidas de posición no central Las medidas de posición se suelen dividir en dos grandes grupos: la de tendencia no central y las centrales. Las medidas de posición no centrales son los cuantiles. Estos realizan una serie de divisiones iguales en la distribución ordenada de los datos. De esta forma, reflejan los valores superiores, medios e inferiores. Los más habituales son: • El cuartil: Es uno de los más utilizados y divide la distribución en cuatro partes iguales. Así, existen tres cuartiles. Los valores inferiores de la distribución se sitúan por debajo del primero (Q1). La mitad o mediana son los valores menores iguales al cuartil dos (Q2) y los superiores son representados por el cuartil tres (Q3). • El quintil: En este caso, divide la distribución en cinco partes. Por tanto, hay cuatro quintiles. Además, no existe ningún valor que divida la distribución en dos partes iguales. Es menos frecuente que el anterior. • El decil: Estamos ante un cuantil que divide los datos en diez partes iguales. Existen nueve deciles, de D1 a D9. El D5 se corresponde con la mediana. Por su lado, los valores superiores e inferiores (equivalentes a los diferentes cuartiles) se sitúan en puntos intermedios entre estos. • El percentil: Por último, este cuantil divide la distribución en cien partes. Hay 99 percentiles. Tiene, a su vez, una equivalencia con los deciles y cuartiles. Veamos dichas equivalencias en conjunto en la siguiente imagen. Hemos añadido las fórmulas que podemos utilizar en una hoja de cálculo para obtener estas medidas de posición no central. Observamos que son fórmulas similares. Existe una específica para los cuartiles, mientras que el resto se obtienen usando decimales, dependiendo de qué queramos calcular. En los cuartiles se usan como parámetros el 1 (Q1), 2 (Q2 y 3 (Q3). En el caso de deciles, quintiles o percentiles, se utiliza una fórmula similar y n/10, n/5 o n/100. De manera que esa n es la posición, de 1 a 9 para los deciles, de 1 a 4 para los quintiles y de 1 a 99 para los percentiles. Por ejemplo, el quintil 2 sería 2/5, el decil 5 sería 5/10 y el percentil 50 sería 50/100. Medidas de posición central Estas nos permiten resumir la distribución de los datos en un solo valor central, alrededor del cual se sitúan; mientras que las segundas dividen la distribución en partes iguales. Estas ya han sido desarrolladas en otros artículos de Economipedia, por tanto, nos limitaremos a ofrecer una información breve de cada una. • La media aritmética, geométrica o armónica: Son tres medidas centrales que nos indican un promedio ponderado de los datos. La primera es la más utilizada y la más conocida de las tres. La geométrica se aplica en series que muestran crecimientos porcentuales. Por su parte, la armónica es útil en el análisis de inversiones en bolsa. • La mediana: En este caso, esta es la medida de posición central más reconocible. Divide la distribución en dos partes iguales. De esta forma, expresa el valor mediano, que no medio. Es muy útil en variables como los ingresos o salarios, a la vez que está muy relacionada con la media y algunos de los cuantiles vistos. • La moda: Estamos ante una medida central de los valores más frecuentes. Por tanto, la moda nos informa sobre aquellos que se repiten en más ocasiones. Esta medida es muy útil en los estudios de mercado cuando medimos una impresión sobre un producto con una escala likert. Vamos a mostrar las principales fórmulas de los tres tipos de medias ponderadas más utilizados. Todas ellas se pueden obtener en una hoja de cálculo. Podemos comprobar que la primera se calcula dividiendo el sumatorio de los datos entre el número de ellos. La segunda, por su parte, es un multiplicatorio de los datos y su raíz enésima, siendo n el número de ellos. La tercera es una división entre la posición del dato y este. Un ejemplo sobre medidas de posición Imaginemos los valores de la renta per cápita de un país en una encuesta a veinte personas. Los hemos ordenado de menor a mayor y calculamos algunos cuartiles y deciles. La imagen muestra cómo se haría. Incluimos las fórmulas Por tanto, en el ejemplo podemos observar que las personas que menos cobran (Q1 o D1) tienen unas rentas de 2900 o 2770. La renta mediana es de 3200 en ambos casos. Los de mayor renta (Q3 o D9) ganaron 3875 o 4620. En conclusión, estas medidas de posición no centrales ofrecen información muy interesante sobre los datos analizados. MEDIDAS DE DISPERSION ¿Qué son las medidas de dispersión? Las medidas de dispersión consisten en números que nos otorgan información acerca de la variabilidad de los datos. Es decir, se encargan de mostrar qué tan juntos o separados se encuentran los datos de una distribución. Como resalta Matemovil en su nota Medidas de dispersión o variabilidad, “Los valores de las medidas de dispersión, nos permiten saber si los datos se encuentran estrechamente agrupados, si se encuentran ampliamente dispersos o si son iguales”. Cuando la medida de dispersión posee un valor pequeño, esto quiere decir que los datos están ubicados cerca a la posición central, mientras que cuando tienen un valor grande, quiere decir que están más separados o alejados al centro. Entonces, considerando lo mencionado, podemos definir las medidas de dispersión como las medidas estadísticas orientadas en dar a conocer qué tan lejanas o próximas se encuentran las puntuaciones de una variable, respecto a la media o promedio aritmético. Estamos seguros que ya tendrás una idea de cómo puede presentarse estas medidas de dispersión en las situaciones cotidianas o los negocios. Sin embargo, para que no quede ninguna duda relacionada a esta medida estadística, te brindaremos un ejemplo, en el cuál se hace evidente su importancia. Imaginate que te vas de viaje con tus amigos y el hotel dónde se están alojando cuenta con una piscina que tiene una media de 1.60 metros. Considerando que tu altura es de 1.70 metros, podrías pensar entrar a la piscina sin ningún inconveniente. Sin embargo, como no sabes nadar, prefieres ser precavido y conocer si toda la piscina cuenta con la misma profundidad. Para ello, te diriges donde el salvavidas y le consultas cuál es la altura máxima y mínima, ya que, en base a eso, podrás decidir si puedes utilizar toda la piscina o solo moverte hasta un determinado punto. Resulta que la altura máxima de la piscina es de 1.80 metros; mientras, la mínima es de 1.40 metros, esto quiere decir que si te mueves hasta el punto más profundo, puede ser que corras peligro, pues según el ejemplo, no sabes nadar, por lo que lo más recomendable sería ingresar con algún flotador o solo moverte hasta la mitad de la piscina.

Características de las medidas de dispersión:

Ahora que ya tienes más claro el concepto de las medidas de dispersión o variabilidad, te brindaremos algunas de sus características más representativas para que no te pierdas de ningún detalle.
A continuación, las características de las medidas de variabilidad:

• Las medias de dispersión indican qué tan diseminados se encuentran los datos de una distribución.
• Nos permiten conocer qué tan cerca o lejos de la media se encuentran los datos.
• Las medidas de variabilidad te dan la posibilidad de saber la homogeneidad o heterogeneidad de las distribuciones de los datos.
• Su aplicación es fácil y rápida
• Su valores siempre son positivos o cero, en caso estos sean iguales.
• Su uso se puede aplicar en diversos ámbitos como el sector salud, industrial, económico empresarial, etc.

Medidas de dispersión absoluta

¡Perfecto! Cada vez estás dominando más esta medida estadística que te será de gran ayuda para tomar mejores decisiones en determinadas situaciones cotidianas, de negocios u otras áreas. En esta sección, te presentaremos uno de los tipos de medidas de dispersión que existen y te detallaremos qué es lo que abarca.
Nos referimos a las medidas de dispersión absoluta, las cuáles se encargan de presentar qué tan separados o juntos están los datos, así como mostrar la variabilidad en función al promedio de las desviaciones de observación. Todo ello apoyándose en medidas que mencionaremos, a continuación:
Rango
El rango o recorrido es una medida de dispersión que hace referencia a la diferencia entre los valores extremos de un conjunto. Es decir, la resta entre su valor máximo y el mínimo.

• R: Xmax - Xmin
Donde:

• Rango: R

• Valor Máximo de la muestra: Xmax

• Valor Mínimo de la muestra: Xmin

Características

• El recorrido permite conocer la distancia entre el máximo y el mínimo valor.

• Es la medida de dispersión más simple.

• Es más sencillo de entender y calcular.

• El uso del rango se limita a la concepción de ideas iniciales.

• Solo considera a los valores extremos, más no a los que se ubican en el intermedio.

Desviación media

La desviación media es la diferencia entre los valores de la variable estadística y la media aritmética. Es decir, la media de las desviaciones absolutas, la cual se expresa de la siguiente manera:

• Dm = 1/n [| x1 – A |+| x2– A |+| xn – A |]

Características

• La desviación media utiliza todas las observaciones para el cálculo.

• Es compleja y poco comprensible.

• El cálculo demanda bastante tiempo.

Desviación estándar o típica

Otra de las medidas de dispersión es la desviación estándar o típica. Se trata, básicamente, de la raíz cuadrada de la media aritmética de los cuadrados de los valores de las desviaciones. En resumen, es la raíz cuadrada de la varianza y es representada de la siguiente manera:

• S= +√ [|x1 – A |2 n1] / N

• S=+√S2

Características

• La desviación típica presta mayor atención a las desviaciones extremas respecto al resto de desviaciones

• Es difícil de comprender y calcular

• Resulta cero si las demás observaciones permanecen iguales

Varianza

Finalmente, la última de las medidas de dispersión absoluta es la varianza. Esta representa la variabilidad de un conjunto de datos respecto a su media aritmética. Se representa como el cuadrado de las desviaciones frente a la media de una distribución estadística y es expresada a través de la siguiente sintaxis:

• S2= Σ |x1 – A |2 n1 / N

Características

• Se le puede añadir un valor a cada puntuación de la variable y la varianza permanecerá constante.

• La varianza no cuenta con valores negativas, solo positivos o cero

Medida de dispersión relativa

Finalmente, las medidas de dispersión relativa se utilizan para comparar la distribución de diversas muestras. Es decir, te permiten saber qué tan separados o dispersos se encuentran las puntuaciones en la distribución estadística, independientemente de cómo se presenten.

Para ello, se apoyan en el coeficiente de variación que detallaremos enseguida

Coeficiente de variación

Esta medida de dispersión relativa se puede definir como la medida estadística que brinda información respecto a la dispersión relativa de un conjunto de datos respecto a la media o promedio aritmético y a su vez, la dispersión de los datos entre sí.

Características

• El coeficiente de variación es calculado como cociente entre la desviación estándar y la media aritmética.

• Representa un número abstracto

• Indica el grado de variabilidad de un conjunto de datos

• Revela la representatividad de la media

MEDIDAS DE FORMA: ASIMETRIA Y CURTOSIS

Las medidas de forma permiten comprobar si una distribución de frecuencia tiene características especiales como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución.

Las medidas de forma son necesarias para determinar el comportamiento de los datos y así, poder adaptar herramientas para el análisis probabilístico.

Medidas de forma:

Son indicadores estadísticos que permiten identificar si una distribución de frecuencia presenta uniformidad.

En este apartado analizaremos dos medidas de forma:

• Coeficiente de asimetría

• Curtosis

Medidas de Simetría:

Las medidas de la asimetría, al igual que la curtosis, van a ser medidas de la forma de la distribución, es frecuente que los valores de una distribución tiendan a ser similares a ambos lados de las medidas de centralización.
La simetría es importante para saber si los valores de la variable se concentran en una determinada zona del recorrido de la variable.

As<0

Asimetría Negativa a la Izquierda

As=0

Simétrica

As>0

Asimetría Positiva a la Derecha.

Para medir la asimetría se puede realizar atendiendo básicamente a dos criterios:

• Comparando la Media y la Moda.

• Comparando los valores de la variable con la media.

COEFIENTE DE ASIMETRÍA DE FISHER

Una distribución es simétrica cuando al trazar una vertical, en el diagrama de barras o histograma de una variable, según sea esta discreta o continua, por el valor de la media, esta vertical se transforma en eje de simetría y entonces decimos que la distribución es simétrica. En caso contrario, dicha distribución será asimétrica o diremos que presenta asimetría.

.La asimetría puede ser de dos tipos:

Asimétrica por la derecha.

Asimétrica por la izquierda

Para complementar lo anterior, revisa el siguiente video y copia en tus apuntes el ejemplo destacando las fórmulas que se utilizan para el cálculo de los coeficientes de asimetría y curtosis.

Videos Explicativos

Daniel

Nestor

Stefany

Comentarios

Stefany Solarte 1 de junio de 2022 a las 19:37
Este comentario ha sido eliminado por el autor.
ResponderEliminar
Respuestas

Añadir comentario

Que necesita caballero?

Mundo de la Estadistica