MÓDULO III: SOFTWARE ESTADÍSTICOS

Paquetes libres y comerciales

Paquetes de Análisis Estadístico:

Los paquetes estadísticos son programas específicamente diseñados para el análisis estadístico de datos, son la evolución natural de las librerías de rutinas matemáticas pensadas inicialmente para ser utilizadas desde lenguajes de programación como Fortran y C.

Estas conjunto de rutinas y subprogramas con el tiempo se fueron perfeccionado, de forma que empezaron a funcionar de forma conjunta, agrupándose en subprogramas cada vez mas completos y enfocados a realizar análisis concretos, por ejemplo en vez de utilizar una rutina para calcular los coeficientes de regresión, otra subrutina para calcular los residuos, después invocar a un procedimiento gráfico para representar el gráfico de los residuos al cuadrado versus predicciones ... etc, estas se fueron agrupando en forma de subprogramas para realizar análisis de cada vez mas completos, suministrando toda la información habitualmente demandada por el analista.


Con la evolución de los computadores, se empezó a suministrar un marco común desde donde llamar a todos estos subprogramas de una forma simplificada. Posteriormente se les añadió una interfaz de usuario, que permite utilizar estos paquetes sin tener que aprenderse el lenguaje de programación correspondiente. Aunque la gran mayoría de estos paquetes fueron desarrollados para mainframes, con el tiempo la potencia de los computadores personales fue creciendo y actualmente casi todos estos paquetes tienen su correspondiente versión para PC.


El coste de estos paquetes de análisis estadístico de datos suele ser elevado, si bien hay que señalar que actualmente existen algunos paquetes de libre distribución, como R.

Los puntos más importantes de los paquetes estadísticos son los siguientes:


  •  El número de análisis que realizan y profundidad de los mismos.


  • El nivel de conocimiento requerido por el analista.


  • El volumen de datos que son capaces de tratar.


  • La ergonomía de uso.


  • La facilidad de programación.

Si consideramos los paquetes SPSS, SAS, BMDP y R, en mi opinión el más completo de ellos es el SAS, seguido del SPSS, quedando en último lugar el BMDP. Sin embargo si consideramos el grado de conocimientos del analista para sacarle el rendimiento a estos paquetes, el que menos conocimientos requiere es el SPSS, seguido del SAS y el BMDP quedando en último lugar el R.

Tanto el SPSS y el SAS son capaces de tratar grandes conjuntos de datos, encontrándose la limitación únicamente en la potencia del computador que los acoge, el numero de variables que pueden tratar el SPSS y SAS es del orden de 300,000 y la longitud del fichero prácticamente ilimitada.

Si consideramos la ergonomía de uso, que puede ser un factor determinante, el mas sencillo de manejar es el SPSS, seguido por el SAS y el BMDP, en cambio el R requiere tanto conocimientos de programación así como profundos conocimientos de estadística.
La posibilidad de programar nuestros propios análisis se encuentra limitada por la potencia del lenguaje de programación de estos paquetes, es donde el R se destaca claramente de los demás, permitiendo incluso la incrustación de rutinas hechas en otros lenguajes, el SAS permite manipulaciones no triviales de datos en su data step, incluso permite manipulaciones matriciales, pero en general es complicado el acceso desde programación a los valores de los análisis con el realizados. El SPSS posee un lenguaje de programación sencillo pero poco potente y no permite el acceso a los valores de los análisis.

A continuación se describirán algunos de los de mayor uso

a.    SPSS (Statistical Package for The Social Sciences o Paquete Estadistico para la Ciencias Sociales):

Este programa, desarrollado en la Universidad de Chicago, es uno de los más difundidos, Hernández, Fernández y Batista, p: 410.
      Es un paquete Estadístico, de uso general, que integra procedimientos estadísticos y gráficos iteractivos de alta resolución, de tal manera que sirve de apoyo al análisis de datos. Es útil entre otros aspectos  para realizar análisis exploratorio desde el punto de vista gráfico, de igual manera se utiliza para realizar análisis estadístico simple y/o avanzado. El programa sirve para profundizar en temas como: Métodos Cuantitativos, Métodos de Investigación, Segmentación de Mercados, Finanzas, Inferencia Estadística, Análisis Multivariado, Pronósticos con series de Tiempo, Métodos Multivariados y otros más.

b.    SAS (Statistical Analysis System)

 Comprende amplias posibilidades de procedimientos estadísticos (métodos
multivariados, regresión múltiple con posibilidades diagnósticas, análisis de
supervivencia con riesgos proporcionales y regresión logística) y permite cálculos
exactos para tablas r x c y contiene potentes posibilidades gráficas.

· Todos los procedimientos pueden emplearse de una sola ejecución

· Los resultados pueden guardarse como archivos y usarse como entradas para
futuras ejecuciones.

· Es particularmente útil en la gestión de datos y en la redacción de informes

· Algunos procedimientos tienen varias opciones por lo cual debe examinarse
cuidadosamente el manual antes de seleccionar la opción deseada.

· SAS ofrece la mayor flexibilidad para personalizar el manejo y análisis de datos,
sin embargo su principal inconveniente es que no resulta fácil aprender a usarlo.

c.    BMDP

 Es el más antiguo de los paquetes. El primer manual para BMD Biomedical Computers
Programs se publicó en 1961.En 1975 pasó a denominarse BMDP. Cubre un amplio
abanico de métodos estadísticos pero su capacidad para manejar datos es limitada,
dentro de sus desventajas se puede mencionar: Sus programas se ejecutan por separado,
solo puede accederse a uno de ellos en cada ejecución.   
  Los resultados de cada programa se pueden guardar en un archivo de BMDP y utilizarse como entrada en otros programas.

d. STATISTICA:

      Statistica (aunque la marca está registrada como STATISTICA, en mayúsculas) es un paquete estadístico usado en investigación, minería de datos y en el ámbito empresarial. Lo creó StatSoft, empresa que lo desarrolla y mantiene.
       StatSoft nació en 1984 de un acuerdo entre un grupo de profesores universitarios y científicos.
       Sus primeros productos fueron los programas PsychoStat-2 y PsychoStat-3. Después desarrolló Statistical Supplement for Lotus 1-2-3, un complemento para las hojas de cálculo de Lotus. Finalmente, en 1991, lanzó al mercado la primera versión de STATISTICA para    MS-DOS.
  Actualmente compite con otros paquetes estadísticos tanto propietarios, como SPSS, SAS, Matlab o Stata, como libres, como R.
           
  • El programa consta de varios módulos. El principal de ellos es el Base, que implementa las técnicas estadísticas más comunes. Éste puede completarse con otros módulos específicos tales como:
         
  • Advanced: técnicas multivariantes y modelos avanzados de regresión lineal y no lineal
   QC: técnicas de control de calidad, análisis de procesos (distribuciones no normales,Gage R&R, Weibull) y diseño experimental
        
  • Data Miner: minería de datos, análisis predictivos y redes neurales
El paquete puede ser extendido a través de una interfaz con el lenguaje R. Además, se pueden modificar y añadir nuevas librerías usando el lenguaje NET.   


e. MINITAB:

Es un programa de computadora diseñado para ejecutar funciones estadísticas básicas y avanzadas. Combina lo amigable del uso de Microsoft Excel con la capacidad de ejecución de análisis estadísticos. En 1972, instructores del programa de análisis estadísticos de la Universidad Estatal de Pensilvania (Pennsylvania State University) desarrollaron MINITAB como una versión ligera de OMNITAB, un programa de análisis estadístico del Instituto Nacional de Estándares y Tecnología (NIST) de los Estados Unidos.
           
Este programa es un paquete estadístico que abarca todos los aspectos necesarios para el aprendizaje y la aplicación de la estadística en general. El programa incorpora opciones vinculadas a las principales técnicas de análisis estadísticos (análisis descriptivo, contrastes de hipótesis, regresión lineal y no lineal, series  temporales, análisis de tiempos de fallo, control de calidad, análisis factorial, ANOVA, análisis cluster, etc), además de proporcionar un potente grafico y de ofrecer total compatibilidad con los editores de texto, hojas de cálculo y bases de datos más usuales.

 

f)  MATLAB:

           
Nace como una solución a la necesidad de mejores y más poderosas herramientas de cálculo para resolver problemas de cálculo complejos en los que es necesario aprovechas las amplias capacidades de proceso de datos de grandes computadores.
          
 Éste es un entorno de computación y desarrollo de aplicaciones totalmente integrado orientado para llevar a cabo proyectos en donde se encuentren implicados elevados cálculos matemáticos y la visualización gráfica de los mismos. MATLAB integra análisis numérico, cálculo matricial, proceso de señal y visualización gráfica en un entorno completo donde los problemas y sus soluciones son expresados del mismo modo en que se escribirían tradicionalmente, sin necesidad de hacer uso de la programación tradicional.
       
 Está dirigido a ingenieros y científicos, éste requiere que el operador adquiera conocimientos en su lenguaje de programación, se ejecuta principalmente a través de una interfaz de línea de comandos y es más pesado al momento de instalarse, además requiere mayor capacidad en el disco duro, un equipo más rápido (mayor memoria RAM).
      
 Para finalizar se puede decir que MATLAB  es un lenguaje de alto nivel y un entorno interactivo para el cálculo numérico, visualización y programación. Usando MATLAB, puede analizar los datos, desarrollar algoritmos y crear modelos y aplicaciones. El lenguaje, las herramientas y funciones matemáticas integradas que permiten explorar múltiples enfoques y llegar a una solución más rápida que con hojas de cálculo o lenguajes de programación tradicionales, como C / C + + o Java.

g.    R:

Es un lenguaje y entorno de programación para análisis estadístico y gráfico. Se trata de un proyecto de software libre, resultado de la implementación GNU del premiado lenguaje S. R y S-Plus -versión comercial de S- son, probablemente, los dos lenguajes más utilizados en investigación por la comunidad estadística, siendo además muy populares en el campo de la investigación biomédica, la bioinformática y las matemáticas financieras. A esto contribuye la posibilidad de cargar diferentes bibliotecas o paquetes con finalidades específicas de cálculo o gráfico.
      
Este programa se distribuye bajo la licencia GNU GPL y está disponible para los sistemas operativos Windows, Macintosh, Unix y GNU/Linux.
     
Fue desarrollado inicialmente por Robert Gentleman y Ross Ihaka del Departamento de Estadística de la Universidad de Auckland en 1993. Su desarrollo actual es responsabilidad del R Development Core Team.

A continuación se enumeran algunos hitos en el desarrollo de R

  • Versión 2.11.0 (22 de abril de 2010): Soporte para sistemas Windows de 64 bits.
  •   Versión 2.13.0 (14 de abril de 2011): Añadida una nueva función al compilador que permite acelerar las funciones convirtiéndolas a byte-code.
  • Versión 2.14.0 (31 de octubre de 2011): Añadidos espacios de nombres obligatorios para los paquetes. Añadido un nuevo paquete de paralelización.
  •  Versión 2.15.0 (30 de marzo de 2012): Nuevas funciones de balanceo de cargas. Mejorada la velocidad de serialización para grandes vectores.
  • Versión 3.0.0 (3 de abril de 2013): Mejoras en GUI, funciones gráficas, gestión de memoria, rendimiento e internacionalización.
El mayor inconveniente que podría presentarse con este software más utilizado en nuestro medio es el hecho de funcionar mediante comandos, lo que para algunos usuarios puede resultar engorroso. Para solventar esta dificultad existe un paquete llamado R Commander que permite utilizar R sin tener que escribir los comandos, es decir, con la sola utilización del ratón.



Los archivos de datos


Datos de atributos Vs datos variables

Los datos de atributos se centran en los números, los datos variables se centran en las mediciones. Por ejemplo, supongamos que tienes datos sobre productos defectuosos que tu línea de ensamblaje produce. Los datos de atributo simplemente clasifican la salida como defectuosa o no defectuosa. Si se reúnen datos variables, se puede observar qué tan malo es cada producto defectuoso: 10 por ciento defectuoso, 20 por ciento defectuoso, y así sucesivamente.

Todo depende de la forma en que desee utilizar los datos. Si quieres ver cuántos productos cumplen con tus estándares de calidad, los datos de atributos podrían servir. Si deseas medir la calidad de cada producto, los datos variables son probablemente más útiles.

Ventajas de los datos de atributos

Hay otras formas de clasificar los datos. Los datos que no se adaptan bien a los números, como el color o el sabor, se llaman datos cualitativos, por ejemplo. Los datos de atributos son más sencillos de reunir que los datos cualitativos, por lo que es una buena opción si se trata de una condición binaria, en la que sólo hay dos alternativas:

  • El producto funciona o no funciona.

  • El vendedor cerró el trato o no lo hizo.

  • Las piezas encajan en la ranura a la que se supone que pertenecen o no.

  • Los estudiantes pasan la prueba o la fallan.
Puede recopilar los datos de atributos para ver qué tan bien se desempeñan tu proceso, equipo o personal. Si quiere que el 80 por ciento de tus estudiantes pasen sus exámenes finales, y sólo el 20 por ciento lo hace, eso muestra un problema. Habrá que determinar si se trata del cuerpo estudiantil, de los profesores o de algún otro problema. De ahí la importancia de hacer un análisis de datos.

Ventajas de los datos variables

Los datos variables pueden decirte muchas cosas que los datos de atributos no hacen. Supongamos que estás probando nuevas vigas para usarlas en un proyecto de construcción. Los datos de atributos te dicen el porcentaje de vigas que soportan la carga que necesitas.

Los datos variables pueden decirte si una viga específica que pasa la prueba puede estar aún cerca de causar algún peligro. Si quiere saber qué tan mal están los estudiantes reprobaron un examen, los datos variables pueden darte la respuesta.

Una primera clasificación del tipo de datos procede del hecho de que las observaciones sean de tipo cualitativo (indican una cualidad) (también se llaman categóricas) o cuantitativo (miden una cantidad).

En el primero de los casos se tiene un atributo, y en el segundo una variable. Para hacer referencia genéricamente a una variable o a un atributo se utiliza el término carácter.

Como ejemplos de atributos tenemos el color del pelo, raza, idioma de un grupo de personas, y como variables su estatura, peso, dinero que lleven en el bolsillo, etc.

Si es necesario operar con un atributo, se le asignará a cada una de sus clases (categorías) un valor numérico, con lo que se transforma en una variable. Esta asignación se hará de forma que los resultados que se obtengan al final del estudio sean fácilmente interpretables. Por ejemplo, si hay 3 idiomas posibles (inglés, francés y español) podemos usar 1, 2 y 3.


Creación de archivos de datos


Cuando se inicia la sesión con SPSS aparece el editor de datos en blanco, ya reparado para crear las variables y entrar sus correspondientes valores.

1. Definir las variables. Antes de introducir los datos es preciso definir las variables, es decir, especificar el nombre de la
variable y el tipo de datos que contendrá cada columna.

Puede hacerse con opciones de menú:

Datos  
  Insertar variable
 
con lo que se define la variable con las características por defecto o activando Vista de variables.



El Nombre de la variable debe empezar por una letra y como máximo puede tener 8 caracteres. No puede contener espacios en blanco, caracteres especiales (¡ , ?, ', *) ni palabras clave SPSS (ALL, AND, NOT, OR...). Lógicamente no puede asignarse el mismo nombre a dos o más variables.

El Tipo de variable por defecto es numérico con 8 dígitos, 2 de ellos decimales. Para modificarlo se debe seleccionar el botón
lateral y se accede al cuadro de diálogo Tipo de variable:


Los tipos más frecuentes son:

  • Numérico: presenta los decimales separados por un punto o coma dependiendo de la configuración numérica del ordenador.

  • Coma: presenta los millares separados por una coma y los decimales por un punto.

  • Punto: presenta los millares separados por un punto y los decimales por una coma.

  •  Fecha: abre un amplio directorio de formatos fecha.

  •  Cadena: recoge variables no numéricas y alinea a la izquierda sus categorías.

La columna Etiqueta permite asignar una descripción a la variable. Las etiquetas de las variables no pueden exceder de 120 caracteres.
La columna Valores permite asignar etiquetas a los valores de la variable. Éstos son especialmente útiles cuando la variable es categórica y se emplean números para representar las categorías. Por ejemplo: 0 'hombre' 1 'mujer'.

La columna Valores perdidos abre un cuadro de diálogo que permite especificar el código de valores missing que se asigna a la variable.
En Columna y Alineación se puede modificar el ancho y la alineación del contenido de la columna.

Por último, se puede especificar la escala de medida de la variable eligiendo entre: Escala, Ordinal y Nominal.

2. Entrar los datos: Los datos pueden ser tecleados en el orden que más convenga: por filas (elementos) o por columnas
(variables). Para desplazar el cursor a la fila siguiente se debe pulsar la tecla Enter, mientras que para desplazarlo a la siguiente columna la tecla es Tab. Si se quiere acceder de forma rápida a una fila o columna determinada se pueden utilizar los iconos:



Importación y exportación de archivos de datos


¿Qué es la importación y exportación de datos?

En el Panel de Control, exportar una base de datos significa disponer de una base de datos de origen en un archivo, que puede usarse para finalidades de almacenamiento o de distribución. Importar una base de datos significa restaurar los datos del archivo a una base de datos de destino.
 
Planificación de una importación de documentos
El asistente de importación puede utilizarse para importar un documento completo o partes de un documento en artefactos de requisito. Antes de ejecutar el asistente, planifique la importación a fin de evitar problemas que pueden surgir durante el proceso para extraer e importar artefactos.

Importación de documentos a un proyecto de requisitos
Pueden importarse documentos de diversos tipos, incluido Microsoft Word, desde el sistema de archivos a un proyecto de requisitos.

Importación y extracción de artefactos de requisitos de los documentos
Cuando se importa un documento en un proyecto de requisitos, se puede especificar que determinadas partes de un documento se importen y extraigan como determinados tipos de artefacto. También se pueden extraer artefactos de un documento que ya esté en un proyecto.

Importar proceso para archivos CSV y de hoja de cálculo
Puede importar datos de archivos de valores separados por coma (CSV) y de hoja de cálculo (XLS y XLSX) a carpetas y módulos en un proyecto de RM.

Exportar proceso para archivos CSV y de hoja de cálculo
Puede exportar artefactos basados en texto de un proyecto de requisitos en archivos de valores separados por coma (CSV) o en archivos (XLS y XLSX). El contenido del archivo exportado se rige por columnas que están en la vista actual.

Formato CSV y ejemplos
Antes de importar un archivo de valores separados por coma (CSV), asegúrese de que el archivo cumple el formato CSV. Además, los archivos CSV, así como los archivos de hoja de cálculo, deben seguir las reglas de contenido para filas y columnas y deben estar codificados en UTF-8.

Importación de archivos de paquetes de migración
Puede importar requisitos desde un archivos de paquetes de migración IBM® Rational DOORS en IBM Rational DOORS Next Generation. El archivo de paquetes de migración debe estar en su sistema de archivos.

Importación y exportación de archivos ReqIF en proyectos de requisitos
Un archivo ReqIF (Requirements Interchange Format) es un archivo XML que se puede utilizar para intercambiar requisitos y metadatos asociados entre herramientas de requisitos o repositorios de requisitos como, por ejemplo, entre IBM Rational DOORS y IBM Rational DOORS Next Generation.



Manipulación de archivos de datos

Los datos que se van a utilizar en un determinado proceso deben previamente encontrarse disponibles en el computador. Las alternativas posibles para ello son: el ingreso manual mediante el teclado del equipo, su ingreso mediante la adaptación de un archivo externo proveniente de otra aplicación, o la utilización como datos de resultados obtenidos por el computador en procesos estadísticos anteriores.

Los juegos de datos que se ingresan al computador requieren ser almacenados en un archivo residente en un soporte de memoria externo (en general un disco flexible o rígido), ya sea para que puedan ser utilizados por un dado proceso o para su uso en una aplicación posterior.

Transformación de datos

Dentro de las aplicaciones estadísticas resulta en muchos casos necesario modificar los valores experimentales de una o más variables, a fin de satisfacer así ciertas condiciones de la técnica utilizada, o para obtener nuevas variables, no medidas experimentalmente, pero de interés para el análisis estadistico considerado.

La utilización del computador permite efectuar transformaciones de datos de manera muy directa, inclusive en forma interactiva en el curso de un análisis estadístico, sin que necesariamente se modifiquen los datos originales. De ellas presentamos a continuación las más relevantes.


a) Transformaciones mediante una función

Mediante este criterio de transformación se obtienen valores de una nueva variable utilizando una función algebraica en la que intervienen otras variables del conjunto de datos considerado. En general la función se aplica observación a observación. Así, para una observación i, el valor de una nueva variable Z resulta:

zi = f( xi, yi, wi, ...)

siendo X, Y, W, ...., otras variables del mismo juego de datos. La estructura de la función f() puede ser arbitraria, aunque existen algunos casos particulares de interés, entre los cuales se destacan los siguientes:

- Normalización: mediante esta transformación

se obtienen valores de una variable U a partir de los de otra X, considerando la siguiente función:

ui = ( xi - x ) / s

siendo x la media aritmética y s el desvío estándar de la variable X (ver capítulo 6). Esta transformación es muy importante en Estadística y uno de sus usos principales es para homogeneizar variables con escalas diferentes en un dado conjunto de observaciones.

- Escalamiento ("scaling"): esta transformación permite transformar linealmente los valores de una variable X de manera que su valor mínimo y máximo sean valores prefijados k1 y k2:

yi= (xi-xMIN)(k2-k1)/(xMAX-xMIN)+k1

- Diferencia: transformación que se aplica usualmente a datos tipo serie de tiempo y que implica obtener valores de una nueva variable como diferencia de valores consecutivos de otra variable X:

yi = xi - xi-1

- Corrimiento ("lagging"): también aplicada en general a series de tiempo esta transformación permite obtner nuevos valores en función de valores corridos de otra variable:

yi = xi-k

siendo k un entero, positivo o negativo


b) Recodificación En este tipo de transformación los nuevos valores de una variable Y se obtienen a partir de los de otra X mediante una función de transformación constituida por una tabla de equivalencias entre valores:

Valor de X Valor de Y

Mediante la recodificación resulta posible modificar las categorías establecidas para una variable cualitativa, o transformar la medición cuantitativa de una variable en un conjunto de categorías (ordenadas o no).

c) Cálculo de Rangos

Esta es una transformación particular mediante la cual, dado un conjunto de valores de una variable, se obtienen sus rangos correspondientes, constituidos por el número de orden que le corresponde a cada uno de los valores de la variable cuando se ordenan de menor a mayor. De acuerdo a ello, si se tienen n valores de una variable los rangos correspondientes toman valores entre 1 y n.

La obtención de los rangos a partir de un conjunto de observaciones de una variable resulta útil en muchas aplicaciones estadísticas, principalmente asociada a la ejecución de pruebas no paramétricas y técnicas robustas en general, como veremos en capítulos siguientes.

d) Creación de variables indicatrices ("Dummy") Esta transformación permite pasar de una variable cualitativa (nominal u ordinal) con k categorías posibles a un grupo de k-1 variables binarias, que en conjunto representan, para cada observación, la información contenida en la primera variable. Por ejemplo, una variable nominal X con tres valores posibles (1,2 ó 3) se puede transformar en dos variables binarias Y1 e Y2

Selección de datos


En las aplicaciones estadísticas aparece frecuentemente la necesidad de efectuar un proceso sólo sobre algunas observaciones de un conjunto de datos que satisfagan cierta condición.

Dicha condicición involucra casi siempre valores que deben tomar algunas de las variables del conjunto de datos analizado, en cada observación.

Manejo de datos faltantes

Cuando se generan o recopilan los datos necesarios para una dada aplicación estadística puede ocurrir que no se obtengan algunos valores individuales, ya sea porque no existen en la información disponible o porque falló el proceso de medición correspondiente.

Las modalidades usuales para manejar esos valores faltantes durante un procesamiento computacional son:

- No consideración en el proceso en curso de la observación que tiene un dato faltante en cualquiera de las variables involucradas.

- No consideración del dato faltante en una observación unicamente cuando en una dada parte del proceso ese dato es necesario.

- Adopción de un cierto valor para el dato faltante (por ejemplo, el promedio de los valores conocidos de la variable o el valor resultante de aplicar un proceso de regresión a las restantes observaciones).


Manipulación de variables

Manipulación experimental de una variable independiente se refiere, en una situación simple, a la aplicación de un valor dado de una variable a un grupo de individuos y un valor diferente de la misma variable a un segundo grupo de individuos

Cuando hablamos de variable estadística estamos hablando de una cualidad que, generalmente adopta forma numérica. Por ejemplo, la altura de Juan es de 180 centímetros. La variable estadística es la altura y está medida en centímetros.

También podríamos, por ejemplo, decir que el beneficio de una empresa ha sido de 22.300 dólares el último año. En este caso, la variable sería el beneficio y estaría medido en dólares. Ambas variables son del tipo cuantitativo (se expresan con un número)

Claro que no todas las variables estadísticas son iguales y, por supuesto, no todas se pueden (en principio) expresar en forma de número. Así, otra variable que podríamos encontrarnos es el color de ojos de una persona. Por ejemplo, Juan tiene los ojos verdes y Andrés los tiene azules. La variable sería el color de ojos y sería una variable cualitativa. Es decir, no se expresa con número.

MANIPULACION DE DATOS

Datos limpios

Una vez que importamos datos a R es conveniente limpiarlos, esto implica almacenarlos de una manera consisistente que nos permita enfocarnos en responder preguntas de los datos en lugar de estar luchando con los datos. Entonces, datos limpios son datos que facilitan las tareas del análisis de datos:

Manipulación: Manipulación de variables como agregar, filtrar, reordenar, transformar.

Visualización: Resúmenes de datos usando gráficas, análisis exploratorio, o presentación de resultados.

Modelación: Ajustar modelos es sencillo si los datos están en la forma correcta.

Los principios de datos limpios (Tidy Data de Hadley Wickham) proveen una manera estándar de organizar la información:

  • Cada variable forma una columna.

  • Cada observación forma un renglón.

  • Cada tipo de unidad observacional forma una tabla.

Vale la pena notar que los principios de los datos limpios se pueden ver como teoría de algebra relacional para estadísticos, estós principios equivalen a la tercera forma normal de 
Codd con enfoque en una sola tabla de datos en lugar de muchas conectadas en bases de datos relacionales.

Archivos adjuntos de representacion al modulo 3






Comentarios