Blog de Darwin Ugarte Ontiveros: Outliers (I): Clasificación e Identificación

En esta ocasión se desea resaltar la importancia de considerar el efecto de las observaciones atípicas (outliers) en el análisis econométrico multivariado. Identificar outliers no es fácil pero necesario, porque los mismos se camuflan en más de dos dimensiones (masking effect) y su presencia puede llevar a distorsionar los resultados de la regresión. La estructura del post es la siguiente: inicialmente se presenta la idea de cómo el análisis de regresión, ya sea aplicando Mínimos Cuadrados Ordinarios (MCO), Máxima Verosimilitud (MV) o el Método Generalizado de Momentos (MGM), es bastante vulnerable a la presencia de outliers, luego se describen los tipos de outliers y la manera “correcta” de detectarlos en STATA.

I. En el análisis de regresión el objetivo es identificar cómo una variable dependiente se encuentra relacionado con un conjunto de variables explicativas. Unos cuantos outliers fácilmente pueden distorsionar las estimaciones de una regresión obteniéndose parámetros que no reflejen la verdadera relación entre las variables. Para visualizar este efecto supongamos una muestra con sólo dos observaciones conteniendo valores atípicos, recordemos que MCO minimiza la suma del cuadrado de los residuos y que los residuos son la diferencia entre el valor observado y el valor predicho de la variable dependiente en base al comportamiento de los regresores; nótese que el par de observaciones outliers producirán un par de residuos con valores extremos. En este marco, al elevar al cuadrado estos residuos, MCO asignará mayor peso a los mismos, y estimará parámetros de interés no representativos en base a la minimización de una suma del cuadrado de los residuos inflada por un par de valores extremos. De igual manera, MV al buscar los parámetros que con mayor probabilidad han sido generados por los datos, en presencia de outliers va a maximizar una función de probabilidad conjunta distorsionada y con una distribución no-Normal; recuérdese que la función de probabilidad conjunta es la suma, en logaritmos, de las probabilidades de realización de cada residuo. Por otro lado, MGM al estimar los parámetros que cumplan con las condiciones de momentos de la muestra, en presencia de outliers va a minimizar funciones objetivo basadas en momentos muestrales distorsionados por los outliers. Gráficamente se puede visualizar el efecto mencionado para el caso de un regresor de la siguiente manera, siendo la relación entre las variables negativa, unos cuantos outliers pueden distorsionar la estimación y puede concluirse que la relación es positiva:

II. Los outliers pueden existir por dos factores, un simple error de tipeo al introductir los datos o al codificarlos, o simplemente que la observación tiene características diferentes a la muestra. La literatura sobre Estadística Robusta sugiere tres tipos de outliers, los llamados "vertical outliers", "good leverage points" y "bad leverage points". Una descripción didáctica de los tipos de outliers, en dos dimensiones se presenta en el siguiente gráfico, el mismo corresponde a Verardi y Croux (2009). (i) Los valores extremos verticales son aquellas observaciones que están lejos de la mayor parte de los datos en la dimensión-y, es decir, son outliers en la variable dependiente pero tienen un comportamiento similar al del grupo en la dimensión-x. Estas observaciones pueden sesgar el valor del intercepto y la pendiente. (ii) Los good leverage points (puntos de influencia buenos), son observaciones que están lejos de la mayor parte de los datos en la dimensión-x , es decir son outliers en los regresores pero que no se encuentran muy lejos de la línea de regresión. Su existencia no afecta a los estimadores pero puede afectar a la inferencia e inducir a rechazarse más fácilmente la hipótesis nula de no significatividad del coeficiente estimado; en Dehon et.al. (2009) puede encontrarse un análisis más amplio de los efectos de este tipo de outlier. (iii) Por último, los bad leverage points (puntos de influencia malos) son observaciones que se encuentran lejos de la mayor parte de los datos en la dimensión-x, y a su vez se encuentran lejos de la línea de regresión. Este tipo de outlier puede sesgar fácilmente ambos coeficientes, el intercepto y la pendiente.

III. Identificar outliers multivariados no es fácil. Los outliers univariados, o valores extremos en una variable, son fácilmente identificables a través de un simple histograma. Los outliers bivariados como los presentados en el anterior gráfico también pueden ser identificados visualmente. Sin embargo, para el caso de más de dos variables, puede suceder que una observación no sea outlier en dos dimensiones pero si en tres o cuatro, lo que ya no es visible fácilmente. Un estimador común para detectar valores extremos multivariados es la Distancia de Mahalanobis (DM), \(D{M_i} = \sqrt {({X_i} - \mu ){\Sigma ^{ - 1}}({X_i} - \mu )} \), donde \(\mu \) es el llamado vector de ubicación (location vector) que no es más que el vector de medias de las variables, \({{\Sigma ^{ - 1}}}\) es la matriz de covarianzas y \({{X_i}}\) es la fila i de la matriz de observaciones \(X\). Las DM miden la distancia de las observaciones respecto al centro de los datos (\(\mu \)) considerando la forma de los mismos (\(\Sigma \)); así las observaciones con valores de DM extremos pueden ser considerados outliers multivariados (nótese que \(MD \sim \chi _{\# {\mathop{\rm var}} iables}^2\)). El problema con esta medida, denominado el "masking effect", es que \(\mu \) y \(\Sigma \) a su vez pueden ser distorsionados por los outliers, haciendo de MD una medida no representativa de la mayoría de los datos. En la literatura sobre Estadística Robusta muchos estimadores robustos de \(\mu \) y \(\Sigma \) han sido propuestos. Dos de ellos, muy útiles y puestos a disposición de los econometristas en STATA gracias a los trabajos de Verardi y Dehon (2010) y Verardi y McCathie (2012) son el Determinante de Covarianza Mínima (Minimum Covariance Determinant, MCD) y el estimador S de ubicación y dispersión multivariada (S-estimator of location and scatter); los comandos en STATA son mcd y smultiv, respectivamente. Para mayor detalle sobre los algoritmos de estos estimadores, que por cierto son computacionalmente intensivos, se puede revisar los dos trabajos citados anteriormente. Les aconsejo el smultiv ya que es más estable. Con la información otorgada por estos comandos se puede clasificar a los outliers graficando los residuos estandarizados y las DM, ambas robustas, siguiendo el enfoque de Rousseeuw y van Zomeren (1990); en un futuro post se pondrá a disposición un código en STATA para obtener tal gráfico.

Es necesario también mencionar que cualquier medida para detectar outliers basados en los residuos, como los residuos estandarizados, las distancias de Cook, las medidas de apalancamiento, etc., sufren del problema "masking effect", es decir están basados en residuos provenientes de coeficientes yá distorsionados por los outliers, por lo que pueden proveer información errónea.

Finalmente mencionar que una vez detectados los outliers, con mcd o smultiv, se los puede excluir del análisis de regresión o se los puede dar menor peso en la estimación. Otra estrategia para lidiar con las distorsiones creadas por observaciones atípicas es utilizar métodos de regresión robustos a outliers, tema pendiente para siguientes posts.

Referencias

- Dehon, C., Gassner, M., y Verardi, V. (2009). Beware of good leverage points, Oxford Bulletin of economics and statistics, 71,3.

- Rousseeuw, P., y van Zomeren, B. (1990). Unmasking multivariate outliers and leverage points. Journal of the American Statistical Association, 85,141.

- Verardi, V., y Croux, C. (2009). Robust Regresion in Stata. Stata Journal, 9,3.

- Verardi, V., y Dehon, C. (2010). Multivariate outlier detection in Stata. Stata Journal, 10,2.

- Verardi, V., y McCathie, A. (2012). The S-estimator of multivariate location and scatter in Stata. Stata Journal, 12,2.

°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°

Blog de Darwin Ugarte Ontiveros

sábado, 23 de enero de 2016

Outliers (I): Clasificación e Identificación

No hay comentarios:

Publicar un comentario