MÓDULO IV: APLICACIONES DE SOFTWARE ESTADÍSTICOS

 Análisis descriptivo de datos


El análisis descriptivo, como su nombre lo indica, consiste en describir las tendencias claves en los datos existentes y observar las situaciones que conduzcan a nuevos hechos. Este método se basa en una o varias preguntas de investigación y no tiene una hipótesis. Además, incluye la recopilación de datos relacionados, posteriormente, los organiza, tabula y describe el resultado.

Un análisis básico descriptivo implica el calcular las medidas simples de composición y distribución de variables. Dependiendo del tipo de datos, pueden ser proporciones, tasas, razones o promedios.  

Además, cuando sea necesario, como en el caso de las encuestas por muestreo, pueden utilizarse medidas de asociación entre variables para decidir si las diferencias observadas entre mujeres y hombres son estadísticamente significativas o no.   


Importancia del análisis descriptivo

Generalmente, las personas evitan el uso del análisis descriptivo cuando revisan los estudios porque les interesan más las predicciones que se están probando. Sin embargo, es un error ya que este método puede proporcionar información realmente importante sobre la muestra que se está estudiando.

El análisis descriptivo proporciona una base de conocimiento que puede ser una base para realizar posteriormente un análisis cuantitativo. Si se interpreta de forma correcta, los datos pueden ofrecer perspectivas útiles que lleven a la creación de una hipótesis.  

Ventajas y desventajas del análisis descriptivo

Las ventajas del análisis descriptivo son:

  • El investigador tiene un alto grado de objetividad y neutralidad.

  • Se considera expansivo en comparación con otros métodos cuantitativos y ofrece una amplio panorama de un fenómeno.

  • Es el mejor método para la recolección de datos que describen las relaciones y exhiben el mundo real.

  • El conocimiento del análisis descriptivo ayuda a la comprensión de un tema y a  interpretar los resultados de modelos estadísticos más complejos a modelos simples.

  • Este tipo de estudio da al investigador la flexibilidad de utilizar tanto datos cuantitativos como datos cualitativos para descubrir las características de la población.

Las desventajas del análisis descriptivo son:

  • La confidencialidad y la falta de veracidad de los encuestados es una de las principales deficiencias del análisis descriptivo.

  • Si el cuestionario de investigación no se diseña de manera apropiada y cuidadosa, pueden ocurrir errores en el resultado general de la investigación.

  • Si el investigador escoge sólo la información que apoya su hipótesis e ignora la parte de los datos que no encajan, puede conducir a sesgos y errores en la investigación.

  • Si el estudio de caso se utiliza para el diseño de la investigación descriptiva, es difícil generalizar sobre la base de un solo caso y sacar conclusiones generales.

  • El investigador piensa que tiene el conocimiento completo del tema de estudio. Los prejuicios del investigador que podrían impactar las acciones tomadas durante la realización de la investigación.

Uso de encuestas en el análisis descriptivo

Las encuestas incluyen la recopilación de una cantidad de datos relativamente grande. Estas se encargan de describir, registrar e interpretar fenómenos sin interferir en las variables existentes.  

En este método, los encuestados responden a través de entrevistas o cuestionarios y posteriormente, los investigadores analizan y describen las respuestas ofrecidas. Es un método rápido para generar datos cuantitativos y tener un gran número de muestras, ya que el porcentaje de respuestas es bajo.

Una encuesta es el enfoque más apropiados para la recopilación de datos descriptivos. Se compone de elementos estructurados y no estructurados, Los estructurados son aquellos que utilizan una lista formal de preguntas para todos los encuestados de la misma manera. En el caso de una encuesta no estructurada, se guía la investigación basándose en respuestas de los encuestados.

El análisis descriptivo es un método de análisis estadístico que antecede a los estudios cuantitativos. Cuando el investigador logra observar el comportamiento de un sujeto sin influir e identificar sus limitaciones, esta herramienta se vuelve invaluable.


Variables nominales


Una variable nominal es un tipo de variable estadística de tipo cualitativo que expresa con nombre una cualidad no necesariamente ordenable.

Dentro de las variables estadísticas podemos encontrarnos, por norma general, dos grandes tipos: cualitativas y cuantitativas.

Así pues, dentro de las variables cualitativas nos encontramos con las nominales. Las cuales, aunque se expresan también con un nombre, se diferencian de las ordinales, en que no necesariamente llevan un orden. Por ejemplo, decir que Juan tiene los ojos verdes, es el caso de una variable nominal. Si tuviéramos una población, ¿cómo podríamos ordenar los colores? ¿De mayor a menor? Salvo que establezcamos una medida, por norma general, no podemos ordenar diferentes colores.

Variable nominal
 José Francisco López 2 min Referenciar
Una variable nominal es un tipo de variable estadística de tipo cualitativo que expresa con nombre una cualidad no necesariamente ordenable.

Dentro de las variables estadísticas podemos encontrarnos, por norma general, dos grandes tipos: cualitativas y cuantitativas.

Así pues, dentro de las variables cualitativas nos encontramos con las nominales. Las cuales, aunque se expresan también con un nombre, se diferencian de las ordinales, en que no necesariamente llevan un orden. Por ejemplo, decir que Juan tiene los ojos verdes, es el caso de una variable nominal. Si tuviéramos una población, ¿cómo podríamos ordenar los colores? ¿De mayor a menor? Salvo que establezcamos una medida, por norma general, no podemos ordenar diferentes colores.

Ejemplo de variables nominales

  • A continuación tenemos varios ejemplos de variables nominativas:

  • Nacionalidad. Por ejemplo, mexicano, argentino y español.

  • Sexo. Hombre o mujer.

  • Religión. Las diferentes religiones.

  • Color de piel, de ojos o pelo.

  • Ideología económica. Capitalismo, socialismo, economía mixta, etc.

  • Ideología política. Según el diagrama de Nolan tendríamos conservador, progresista, centro, liberal y totalitario.
Y así podríamos seguir con más ejemplos que no necesariamente se pueden ordenar. Al menos, no en términos cuantitativos (no existe jerarquía). En lo que sigue vamos a ver dos ejemplos más desarrollados respectivos a la nacionalidad y al sexo.


VARIABLES ORDINALES


Una variable ordinal es un tipo de variable estadística de tipo cualitativo que expresa con palabras una cualidad de naturaleza ordenable.

Es decir, una variable ordinal es una variable que puede ser ordenada. Así, si decimos que en una carrera de 100 metros lisos Andrés quedó primero, José segundo y Pablo tercero. Esa posición es ordenable, se puede ordenar de mayor a menor o de menor a mayor. Es decir, de forma descendente o ascendente.

De manera que, en referencia a las variables cualitativas nos encontramos con las ordinales. Las variables ordinales, a diferencia de las nominales, sí pueden ser ordenadas de forma jerárquica. Otro ejemplo, en este sentido, podría ser que una lesión es leve, moderada o grave. La variable es la gravedad de la lesión y se puede ordenar en función de la gravedad. En caso de que no sea posible ordenarlo de forma jerárquica estaríamos hablando de una variable nominal.

Ejemplo de variables ordinales

En lo que sigue vamos a ver varios ejemplos de variables ordinales:

Calificación crediticia. Este será mejor cuanto mayor sea la solvencia según la agencia de calificación.

Nota de una prueba. Por ejemplo, un examen que se califica como suspenso, aprobado, notable, sobresaliente y matrícula de honor.

Posición en una carrera deportiva. Primero, segundo, tercero, cuarto, etc.

Satisfacción con un servicio al cliente. Muy insatisfecho, insatisfecho, neutro, satisfecho y muy satisfecho.

Podríamos nombrar otros ejemplos, pero estos son algunos de los más representativos. Lo más importante es saber identificar este tipo de variables estadísticas. Además, vamos a ver dos ejemplos más desarrollados sobre las variables ordinales: nota de una prueba y satisfacción de los clientes de una compañía telefónica respecto al servicio al cliente.

Notas del examen de economía
Un conjunto de 10 alumnos realizaron una prueba sobre conceptos de economía hace una semana y las calificaciones fueron las siguientes:

Alumno         Calificación
1                  Aprobado
2                  Suspenso
3                  Notable
4                  Notable
5                  Suspenso
6                  Aprobado
7                  Sobresaliente
8                  Aprobado
9                  Notable
10                  Matrícula de honor

La tabla anterior muestra las calificaciones de cada uno de los 10 alumnos. En total tenemos 2 suspensos, 3 aprobados, 3 notables, 1 sobresaliente y 1 matrícula de honor. En la frase anterior, acabamos de ordenarlos de manera ascendente. Es decir, primero las calificaciones más bajas (suspensos) y finalmente la calificación más alta (matrícula de honor). Si lo hubiéramos hecho al revés sería en orden descendente.

Satisfacción de los clientes de una compañía telefónica respecto al servicio al cliente

Una práctica común en las compañías telefónicas (y en general en muchas compañías con atención telefónica) es que registran datos sobre la satisfacción del cliente con respecto a la atención recibida. También son habituales el tipo de respuestas que veremos a continuación en encuestas de interés público. Así pues tenemos los siguientes datos.

Cliente       Satisfacción
1               Satisfecho
2               Muy satisfecho
3               Insatisfecho
4               Muy satisfecho
5               Satisfecho
6               Insatisfecho
7               Neutro
8               Neutro
9               Satisfecho
10               Muy satisfecho

Los datos anteriores hacen referencia a una variable ordinal. Al ser ordinal, podemos ordenarlo jerárquicamente. Así pues, para ilustrarlo lo haremos en orden descendente. Es decir, lo ordenaremos de más satisfacción a menos satisfacción. Tenemos, por tanto, 3 clientes muy satisfechos, 3 clientes satisfechos, 2 clientes neutros y 2 insatisfechos en relación a la atención telefónica recibida.


Variables cuantitativas


Una variable cuantitativa es aquella variable estadística que, a diferencia de la cualitativa, puede expresarse a través de cifras. Por esta razón, puede analizarse con métodos estadísticos.

Otra forma de entender las variables cuantitativas es como aquellas que pueden ser medibles. Así pues, es posible ordenarlas de mayor a menor (o viceversa) y realizar operaciones matemáticas.

Diferencia entre variable cualitativa y cuantitativa


La principal diferencia entre variable cualitativa y cuantitativa es que la primera representa una cualidad del sujeto u objeto que puede expresarse mediante palabras. En cambio, la segunda se expresa únicamente con números.

Dicho esto, conviene aclarar que a las variables cualitativas también se les puede asignar un valor. Por ejemplo, imaginemos una base de datos en la que a las personas nacionales se les asigna, para su clasificación, el número 1, mientras que, a los extranjeros, por el mismo motivo, se les asigna el número O. No obstante, pese a ello, esto no quiere decir que la variable es cuantitativa, pues no se trata de una variable medible.

Cabe señalar, además, que las variables cuantitativas son específicas o exactas. Esto, a diferencia de las variables cualitativas que tienden a ser más relativas.

Por ejemplo, el peso de una maleta puede ser de 23,5 kg. Este es un valor exacto. Sin embargo, una variable cualitativa podría ser el nivel de satisfacción del servicio en un restaurante, donde se puede pedir una calificación del 1 al 5. No obstante, seguirá siendo una variable cualitativa y la forma de medirla será más inexacta que en el ejemplo de la maleta. Una persona podría dudar si poner una calificación de 3 o 4 si su nivel de satisfacción fue moderado.

Tipos de variables cuantitativas

Los tipos de variables cuantitativas son los siguientes:

Variables discretas: Son aquellas que toman, solamente, determinados valores y no cualquier valor que se encuentre entre dos de ellos. Por ejemplo, cuando una variable solo puede tomar valores enteros es discreta. Imaginemos el número de coches que posee una persona. Un individuo no puede tener un coche y medio.

Variables continuas: Son aquellas que pueden tomar cualquier valor. Habitualmente, esto quiere decir que puede tomar valores que no son enteros. Por ejemplo, el peso de una bolsa de arroz puede ser de 1,25 kg.

Ejemplos de variable cuantitativa

Un ejemplo de variable cuantitativa puede ser la remuneración de los empleados de una empresa. Esta puede ir desde 1.500 hasta 10.000 dólares mensuales.

Con los datos de estas remuneraciones se pueden calcular indicadores como la media, mediana y moda. Incluso, se puede hacer una comparación con otras empresas del sector.

Además de esto, también se puede analizar cómo han ido variando a lo largo del tiempo los sueldos de la empresa. A su vez, es posible calcular el peso relativo de las remuneraciones dentro de los costes de la empresa, y así ver la importancia de estos.


Graficos de barra


¿Qué es un diagrama de barras?
Un diagrama de barras refleja los conteos de valores de los niveles de una variable categórica o nominal.

¿Cómo se usan los diagramas de barras?
Los diagramas de barras ayudan a entender los niveles de su variable y se pueden usar para detectar errores.

¿En qué cuestiones conviene fijarse?
Los diagramas de barras se usan en datos nominales o categóricos. Para datos continuos, mejor utilice histogramas.

Los diagramas de barras reflejan los conteos de frecuencia de los datos
Los diagramas de barras reflejan los conteos de frecuencia de valores de los distintos niveles de una variable categórica o nominal. A veces se usan diagramas de barras para representar otras estadísticas, como porcentajes. La figura 1 es un ejemplo de diagrama de barras con las respuestas a la pregunta de una encuesta. 


Las barras representan los niveles de la variable; la altura de las mismas indica el conteo de respuestas de cada nivel.


En qué se diferencian los diagramas de barras y los histogramas?

Las dos diferencias fundamentales entre un histograma y un diagrama de barras son los espacios entre barras y los tipos de datos. Los histogramas no tienen espacio entre barras, los diagrama de barras sí tienen. Sin embargo, con muchas herramientas de software puede editar un diagrama de barras para que no tenga espacios entre barras, lo que nos lleva a la segunda diferencia clave entre histogramas y diagramas de barras.

Los histogramas se usan en datos continuos; los diagramas de barras se usan en datos categóricos o nominales. Consulte la sección «Diagramas de barras y tipos de datos» a continuación para más detalles. 


¿En qué se diferencian los diagramas de Pareto y de barras?

Un diagrama de Pareto es un ejemplo especial de diagrama de barras. En los diagramas de Pareto las barras se ordenan de mayor a menor. Estos diagramas se suelen usar en control de calidad para identificar las áreas con más problemas.

Como los histogramas, los diagramas de Pareto no tienen espacios entre barras. A diferencia de los histogramas, los diagramas de Pareto resumen el conteo de variables categóricas o nominales. 

La figura 2 ofrece un ejemplo de diagrama de Pareto que resume los tipos de hallazgo en una auditoría de procesos de negocio. Incluye una leyenda de las categorías, lo que permite etiquetas más largas para que las categorías sean más fáciles de leer.



Ejemplos de diagrama de barras

A menudo se usan programas para crear diagramas de barras. Estos programas permiten crear diagramas verticales u horizontales a sus usuarios, además de añadirles funciones personalizadas. 

A continuación hay algunos ejemplos de diagramas de barras. Quizá quiera consultar a alguien experto en estadística, o alguno de los muchos libros y sitios web al respecto, para determinar qué tipo de diagrama se ajusta mejor a sus datos. 

Las figuras 3-15 usan datos de 10 bolsas de caramelos. Cada bolsa tiene 100 caramelos y se ha reunido el conteo de los cinco sabores para cada una. El objetivo es que las bolsas tengan cantidades casi iguales de cada sabor, por lo que esperamos tener unos 20 caramelos de cada sabor por bolsa. Entre las 10 bolsas, esperamos tener aproximadamente 200 caramelos de cada sabor. 

Nuestro primer paso es crear un diagrama de barras de los datos, como muestra la figura 3:


El software ordena las barras alfabéticamente por nombre del sabor, que puede ser la mejor manera de mostrar los resultados a su público. 

Sin embargo, quizá prefiera ordenarlas de manera decreciente, como se ve en la figura 4:



Ahora se puede ver que el número total de unidades de caramelos para uva y naranja son iguales. Esto era cierto en la figura 3, pero no era tan fácil de ver.

Las barras son verticales. En el caso de etiquetas de gráfico largas, a menudo es mejor un diagrama de barras horizontales. En la figura 5 se muestran los mismos datos con etiquetas más largas en un gráfico horizontal. Si hubiésemos usado un diagrama de barras vertical, las etiquetas habrían sido más difíciles de leer. 




Hemos usado el mismo color para todas las barras de estos ejemplos. Como norma general, usar muchos colores distintos en una gráfica la hace más difícil de entender. 

Pero supongamos que la empresa de caramelos necesita que cada bolsa tenga al menos 18 caramelos de cada sabor. Entre las 10 bolsas, necesitamos por lo menos 180 caramelos de cada uno. Ya que nuestros datos reflejan solo 120 caramelos de cereza, queremos resaltar este problema. La figura 6 lo hace mediante una barra sombreada. Otras opciones serían usar un color distinto para resaltar la barra de cereza. 


Puede ser conveniente agregar etiquetas a las barras. En la figura 7 se muestran los conteos al final de cada barra. Este enfoque ayuda a mostrar que podemos tener un problema con los dulces rojos de sabor manzana, ya que apenas satisface nuestro requisito de 18 unidades por bolsa. 



Cómo afectan los valores extremos a los diagramas de barras

Los diagramas de barras representan conteos de las categorías de sus datos. A diferencia de los histogramas, a los diagramas de barras no les afectan los valores extremos. En un diagrama de barras sencillamente habría otra barra de categoría con muchos (o muy pocos) valores. La figura 8 muestra un conjunto de datos de caramelos distinto, que sustituye el sabor a uva con el de mango. El conteo para el mango es mucho menor del esperado.



En la Figura 9 se muestra otro ejemplo, en el que se ha sustituido Uva por Piña. El conteo de Piña es mucho mayor de lo esperado. 


Los diagramas de barras pueden ayudar a identificar valores incorrectos en sus datos. En la figura 10, “Mango” se ha escrito incorrectamente “Mangi” para uno de los valores de datos, un error claro que debe corregirse. Puede ser útil comprobar sus propios datos en busca de errores con los diagramas de barras.




¿Cómo puedo agregar grupos a los diagramas de barras?

Si hay grupos en sus datos, representar todos los datos juntos en un diagrama de barras puede ayudar a revelar patrones en estos grupos. En la figura 11 se combinan los datos de tres fábricas de caramelos. 



A partir de esta figura se puede ver qué fábricas usan qué sabores en sus bolsas de caramelos. También se pueden identificar problemas, como que la fábrica A pone muy pocos caramelos de mango en sus bolsas. En este ejemplo tiene sentido ordenar las barras alfabéticamente. No podemos ordenar por cantidad porque habría un orden distinto en cada fábrica.

En este ejemplo, usar colores diferentes para las distintas fábricas puede ser útil. La figura 12 muestra cada fábrica con un color distinto.



Puede ser conveniente mostrar los conteos en el eje horizontal para compararlos visualmente de manera más fácil, como se muestra en la figura 13.



Aunque la figura 13 facilita el comparar conteos de los distintos sabores, hace más difícil determinar qué sabores se usan en las distintas fábricas respecto a la figura 12.

Estas son solo algunas de las muchas maneras en las que se pueden agregar grupos a un diagrama de barras. Con sus datos, tendrá que pensar en el mensaje para dar a su público y cómo diseñar el mejor gráfico que lo transmita. 


ANÁLISIS EXPLORATORIO DE DATOS

El análisis exploratorio tiene como objetivo identificar el modelo eórico más adecuado para representar la población de la cual proceden los datos muestrales. Dicho análisis se basa en gráficos y estadísticos que permiten explorar la distribución identificando características tales como: valores atípicos o outliers, saltos o discontinuidades, concentraciones de valores, forma de la distribución, etc. Por otra parte, este análisis se puede realizar sobre todos los casos conjuntamente o de forma separada por grupos. En este último caso los gráficos y estadísticos permiten identificar si los datos proceden de una o varias poblaciones, considerando la variable que determina los grupos como factor diferenciador de las poblaciones. También permite comprobar, mediante técnicas gráficas y contrastes no paramétricos, si los datos han sido extraídos de una población con distribución aproximadamente normal.

Para realizar un análisis exploratorio, la secuencia de instrucciones es:

Analizar  
            Estadísticos Descriptivos  
                                                 Explorar




El análisis exploratorio calcula, por defecto, los estadísticos más importantes así como el intervalo de confianza para la media al 95%, el gráfico de tallo y hojas y el diagrama de caja. Para ampliar éste análisis se puede acceder a los siguientes cuadros de diálogo intervalo media:



Estadísticos: Permite modificar el grado de confianza del intervalo para la media, calcular Estimadores robustos centrales (estimador M de Huber, estimador en onda de Andrews, estimador M redescendente de Hampel, estimador biponderado de Tukey), y hallar los Valores atípicos (se obtienen los 5 mayores y los 5 menores valores de la distribución) y algunos Percentiles (los cuartiles y el 5º, 10º, 90º y 95º centil).



 Gráficos:

  - Las opciones del Diagrama de caja se utilizan sólo cuando se han seleccionado varias variables dependientes. Por defecto, se presentan en gráficos distintos las variables dependientes seleccionadas, y para cada una de ellas, en el mimo gráfico, las cajas de los distintos grupos definidos por el factor. Si se selecciona Dependientes juntas se representan en un único gráfico las cajas correspondientes a todas las variables dependientes. Con la opción Ninguno se omite la presentación de los diagramas de caja.

  - Las alternativas de Descriptivos son el gráfico de tallo y hojas, activado por defecto, y el histograma. Estos gráficos se elaboran por separado para todos los grupos definidos para cada una de las variables dependientes.

  - Si se activa la opción Gráficos con pruebas de normalidad se obtienen para cada una de las variables dependientes y para cada uno de los grupos el correspondiente gráfico Q-Q Normal y el gráfico Q-Q Normal sin tendencia. Estos gráficos permiten comprobar si las poblaciones de las que se han extraído las muestras presentan distribución normal. El Q-Q Normal presenta simultáneamente para cada elemento el valor observado y el valor esperado bajo el supuesto de normalidad. Si los datos proceden de una distribución normal los puntos aparecen agrupados en torno a la línea recta esperada. El Q-Q Normal sin tendencia se basa en las diferencias entre los valores observados y los valores esperados bajo la hipótesis de normalidad. Si estas diferencias se distribuyen aleatoriamente alrededor del eje de abscisas puede suponerse que la hipótesis de normalidad es sostenible. Además, esta opción permite contrastar la hipótesis de normalidad con las prueba de Kolgomorov-Smirnov* y de Shapiro-Wilks*.
  - La opción Dispersión por nivel con prueba de Levene, activando No transformados, permite contrastar la hipótesis de igualdad de varianza para los grupos definidos por un factor.




Comentarios

Entradas populares