Tipos de Análisis Exploratorio de Datos

análisis exploratorio de datos se aplica un conjunto de métodos básicos para resumir un conjunto de datos con el fin de detectar patrones y relaciones inesperadas entre las variables . Esto separa el enfoque exploratorio del análisis de datos de confirmación, que hace hincapié en la prueba de hipótesis . Estadístico John Tukey fue pionera en los métodos de análisis exploratorio de datos en la década de 1970 . Aunque el análisis exploratorio incluye algunos métodos estadísticos básicos , la mayoría de sus técnicas son visuales , como las representaciones gráficas proporcionan un medio para la exploración de la mente abierta de los datos. Resumen de cinco números

Esta técnica de análisis exploratorio resume los datos combina tres medidas de resumen estadístico - conocidas como medidas de tendencia central - con dos medidas de variación para dar una idea de la distribución de los datos. Los analistas desarrollan este resumen disponiendo los valores de los datos en orden descendente, a continuación, seleccionar las más grandes y más pequeños los valores , así como la mediana , o el punto de datos que se encuentra en el medio. Los otros dos valores incluyen el primer cuartil , o el valor en el que el 25 por ciento de las observaciones son más pequeños y el 75 por ciento son grandes, y el tercer cuartil , el valor en el que el 75 por ciento son menores y el 25 por ciento son mayores . Arraying estos cinco números de menor a mayor transmite un sentido de cómo los datos son simétricos .
Box- and- Whisker Parcela en venta

El diagrama de caja y patillas proporciona una representación visual de la resumen de cinco números por que muestra la forma de la distribución de los datos, así como la tendencia central y variabilidad . El diagrama consiste en una caja rectangular de que los límites inferior y superior representan los primero y tercer cuartiles mientras que una tercera línea a través de la caja representa la mediana . Además , dos líneas que se extienden desde cada extremo de la caja ( los "bigotes" ) muestran variaciones dentro de los datos mostrando los puntos de datos más grandes y más pequeños . Si los datos son simétricos , los bigotes tendrán la misma longitud y la línea media se divide el cuadro en dos mitades iguales . La mayoría de los conjuntos de datos , sin embargo , no son simétricos , pero sesgados hacia la izquierda o hacia la derecha debido a los valores inusualmente altos o bajos que distorsionan los datos . El diagrama de caja y bigotes muestra visualmente la cantidad de sesgo en los datos.
De tallo y hoja Display

Este método exploratorio combina cuantitativa y técnicas gráficas por mostrar números crudos en mostradores visual similar a un histograma o gráfico de barras . La pantalla tiene los números en bruto y separa los dígitos , o " deriva ", de los dígitos de cola , en adelante " las hojas. " Por ejemplo, un analista de datos podría construir un diagrama de tallo y hojas de resultados de las pruebas en una clase de la universidad de 30 estudiantes en la que las puntuaciones oscilaron entre un mínimo de 52 a un máximo de 98 , haciendo que el dígito en la columna de las decenas del tallo y el dígito en la columna de la los las hojas. Por lo tanto , los tallos consistiría en los dígitos 5 a 9 , con las hojas que se ramifica desde cada tallo . Por ejemplo , si cuatro estudiantes obtuvo 83 en la prueba , la pantalla podría mostrar un tallo de 8 , seguido por cuatro 3s . El diagrama de tallo y hoja transmite la distribución de las frecuencias de los datos , además de facilitar un analista para ver los valores reales.
Diagrama de dispersión

Este individuo parcelas pantalla visual puntos de datos de dos variables en un gráfico , con cada punto o punto que representa la intersección de los valores de dos variables. Por ejemplo , un analista económico podría crear un diagrama de dispersión de los salarios y los años de experiencia laboral por hora . El patrón de los puntos da una idea de la correlación entre las dos variables. Si el clúster puntos en torno a una línea recta que sugiere una correlación más fuerte , mientras que una dispersión aleatoria buscando sugiere poca o ninguna relación entre las variables.
: Estadísticas descriptivas

Estos incluir medidas tales como la media o promedio numérico , y la desviación estándar , que transmite la cantidad de dispersión en los datos . Mientras que los medios y las desviaciones estándar son medidas de valor, que sólo proporcionan una visión limitada de los datos; Además, los valores extremadamente altas o bajas - conocidos como atípicos - pueden distorsionar estas medidas. El mejor análisis exploratorio que utiliza la estadística descriptiva , lo hace en conjunto con otros métodos , como por ejemplo una pantalla gráfica como un diagrama de dispersión o diagrama de caja y bigotes .