En esta ocasión se desea resaltar la
importancia de considerar el efecto de las observaciones atípicas (outliers) en
el análisis econométrico multivariado. Identificar outliers no es fácil pero necesario, porque los mismos se camuflan en más de dos dimensiones (masking effect) y su presencia puede llevar a distorsionar los resultados de la regresión. La estructura del post es la
siguiente: inicialmente se presenta la idea de cómo el análisis de regresión, ya sea aplicando Mínimos Cuadrados
Ordinarios (MCO), Máxima Verosimilitud (MV) o el Método Generalizado de Momentos (MGM), es bastante vulnerable a la presencia de outliers, luego se describen los tipos
de outliers y la manera “correcta” de detectarlos en STATA.
II. Los outliers pueden existir por dos factores, un simple error de tipeo al introductir los datos o al codificarlos, o simplemente que la observación tiene características diferentes a la muestra. La literatura sobre Estadística Robusta sugiere tres tipos de outliers, los llamados "vertical outliers", "good leverage points" y "bad leverage points". Una descripción didáctica de los tipos de outliers, en dos dimensiones se presenta en el siguiente gráfico, el mismo corresponde a Verardi y Croux (2009). (i) Los valores extremos verticales son aquellas observaciones que están lejos de la mayor parte de los datos en la dimensión-y, es decir, son outliers en la variable dependiente pero tienen un comportamiento similar al del grupo en la dimensión-x. Estas observaciones pueden sesgar el valor del intercepto y la pendiente. (ii) Los good leverage points (puntos de influencia buenos), son observaciones que están lejos de la mayor parte de los datos en la dimensión-x , es decir son outliers en los regresores pero que no se encuentran muy lejos de la línea de regresión. Su existencia no afecta a los estimadores pero puede afectar a la inferencia e inducir a rechazarse más fácilmente la hipótesis nula de no significatividad del coeficiente estimado; en Dehon et.al. (2009) puede encontrarse un análisis más amplio de los efectos de este tipo de outlier. (iii) Por último, los bad leverage points (puntos de influencia malos) son observaciones que se encuentran lejos de la mayor parte de los datos en la dimensión-x, y a su vez se encuentran lejos de la línea de regresión. Este tipo de outlier puede sesgar fácilmente ambos coeficientes, el intercepto y la pendiente.
III. Identificar outliers multivariados no es fácil. Los outliers univariados, o valores extremos en una variable, son fácilmente identificables a través de un simple histograma. Los outliers bivariados como los presentados en el anterior gráfico también pueden ser identificados visualmente. Sin embargo, para el caso de más de dos variables, puede suceder que una observación no sea outlier en dos dimensiones pero si en tres o cuatro, lo que ya no es visible fácilmente. Un estimador común para detectar valores extremos multivariados es la Distancia de Mahalanobis (DM), DMi=√(Xi−μ)Σ−1(Xi−μ), donde μ es el llamado vector de ubicación (location vector) que no es más que el vector de medias de las variables, Σ−1 es la matriz de covarianzas y Xi es la fila i de la matriz de observaciones X. Las DM miden la distancia de las observaciones respecto al centro de los datos (μ) considerando la forma de los mismos (Σ); así las observaciones con valores de DM extremos pueden ser considerados outliers multivariados (nótese que MD∼χ2#variables). El problema con esta medida, denominado el "masking effect", es que μ y Σ a su vez pueden ser distorsionados por los outliers, haciendo de MD una medida no representativa de la mayoría de los datos. En la literatura sobre Estadística Robusta muchos estimadores robustos de μ y Σ han sido propuestos. Dos de ellos, muy útiles y puestos a disposición de los econometristas en STATA gracias a los trabajos de Verardi y Dehon (2010) y Verardi y McCathie (2012) son el Determinante de Covarianza Mínima (Minimum Covariance Determinant, MCD) y el estimador S de ubicación y dispersión multivariada (S-estimator of location and scatter); los comandos en STATA son mcd y smultiv, respectivamente. Para mayor detalle sobre los algoritmos de estos estimadores, que por cierto son computacionalmente intensivos, se puede revisar los dos trabajos citados anteriormente. Les aconsejo el smultiv ya que es más estable. Con la información otorgada por estos comandos se puede clasificar a los outliers graficando los residuos estandarizados y las DM, ambas robustas, siguiendo el enfoque de Rousseeuw y van Zomeren (1990); en un futuro post se pondrá a disposición un código en STATA para obtener tal gráfico.
Es necesario también mencionar que cualquier medida para detectar outliers basados en los residuos, como los residuos estandarizados, las distancias de Cook, las medidas de apalancamiento, etc., sufren del problema "masking effect", es decir están basados en residuos provenientes de coeficientes yá distorsionados por los outliers, por lo que pueden proveer información errónea.
Finalmente mencionar que una vez detectados los outliers, con mcd o smultiv, se los puede excluir del análisis de regresión o se los puede dar menor peso en la estimación. Otra estrategia para lidiar con las distorsiones creadas por observaciones atípicas es utilizar métodos de regresión robustos a outliers, tema pendiente para siguientes posts.
Referencias
- Dehon, C., Gassner, M., y Verardi, V. (2009). Beware of good leverage points, Oxford Bulletin of economics and statistics, 71,3.
- Rousseeuw, P., y van Zomeren, B. (1990). Unmasking multivariate outliers and leverage points. Journal of the American Statistical Association, 85,141.
- Verardi, V., y Croux, C. (2009). Robust Regresion in Stata. Stata Journal, 9,3.
- Verardi, V., y Dehon, C. (2010). Multivariate outlier detection in Stata. Stata Journal, 10,2.
- Verardi, V., y McCathie, A. (2012). The S-estimator of multivariate location and scatter in Stata. Stata Journal, 12,2.
°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°