Bienvenidos a mi blog, soy economista, mi área de especialización es la investigación académica, mis tópicos de interés son la economía del desarrollo y los métodos econométricos. En este espacio encontrarán información sobre temas relacionados con la Econometría, así también algunos de mis trabajos sobre la Economía Boliviana. El objetivo es contribuir al conocimiento, el análisis y debate sobre temas de interés para los economistas y econometristas bolivianos. Cualquier contribución es bienvenida.

sábado, 16 de abril de 2016

Outliers (II): Regresión Robusta

En el anterior post se resaltó la importancia de considerar el efecto de las observaciones atípicas (outliers) en el análisis econométrico multivariado, los tipos de outliers y la manera correcta de detectarlos en STATA. Así, una vez identificados los outliers podía excluirseles de la muestra o darles una menor ponderación en la regresión. Un segundo enfoque para lidiar con el problema de los outliers es utilizar directamente métodos econométricos que no son vulnerables a las observaciones atípicas, lo que se conoce como “Regresión Robusta”, en Maronna et. al.(2006) se encuentra un tratamiento adecuado de estos métodos. 
En este post, se describe brevemente algunas de estas técnicas de “regresión robustas” a los outliers y los códigos para estimarlos en STATA. El objetivo es brindar una idea de las maneras interesantes cómo enfoca este tema la literatura.

El estimador M
Este estimador es una modificación de la función objetivo de Mínimos Cuadrados Ordinarios (MCO). Considerando que la vulnerabilidad de MCO proviene del mayor peso que se otorga a los valores extremos por elevar al cuadrado los residuos a ser minimizados, este estimador propone minimizar en su lugar otra función \(\rho \) que asigne menor peso a los residuos extremos:
\({\hat \theta ^M} = \arg \mathop {\min }\limits_\theta  \sum\limits_{i = 1}^n {\rho ({r_i}(\theta )} )\)
En este marco MCO puede ser entendido como un estimador M con \(\rho  = {()^2}\). En los métodos M las funciones \(\rho \) tienen que cumplir ciertas propiedades (no decreciente, simétrica, tener un único mínimo en cero, y ser menos creciente que la función cuadrática), las mismas pueden ser monótonas (si son enteramente convexas) o redescendientes (si tienen un límite establecido a partir de un valor \(k\), denominado punto de quiebre), éstas últimas son las que dan robustez a la estimación, la función redescendiente mayormente usada es la Tukey Biweight (TB).
La estimación del modelo M es un problema de Mínimos Cuadrados Ponderados Iterados con los pesos definidos como \({w_i} = \rho ({r_i}/\sigma )/r_i^2\). Como se aprecia los residuos son estandarizados por una medida de dispersión \(\sigma \) para garantizar la propiedad de equivarianza de escala, es decir, la independencia con respecto a las unidades de medida de las variables. Entonces, en la práctica se estima:  \({\hat \theta ^M} = \arg \mathop {\min }\limits_\theta  \sum\limits_{i = 1}^n {{w_i}(r_i^2(\theta )} )\). La necesidad de iterar surge por el hecho que los pesos \({w_i}\) dependen de los residuos, los residuos dependen de los coeficientes estimados, y los coeficientes estimados dependen de los pesos; así se necesita un punto de comienzo, en Fox y Weisberg (2013) se encuentra un resumen del algoritmo de este proceso. 
Para destacar el rol de la función \(\rho \) y diferenciar un estimador con \(\rho \) monótona como MCO del estimador M con \(\rho \) redescendiente, a continuación se presentan las funciones objetivo y los ponderadores para ambos estimadores. En esta tabla inicialmente se puede observar que en MCO los residuos más grandes tienen monotónicamente mayores valores de \(\rho \), mientras que en el estimador M (con la función Tukey Biweight) los residuos más grandes tienen valores limitados de \(\rho \), a partir del  punto de quiebre \(k\). De igual manera se observa que en MCO residuos extremos o pequeños reciben igual ponderación, mientras que en el estimador M los residuos extremos tienen menor peso en la estimación.
Fox y Weisberg (2013)

En STATA el estimador M con la función Tukey Biweight puede ser implementado con el comando rreg o mregress; sin embargo, debido al enfoque iterativo en su estimación, este método no tiene las propiedades de robustez deseadas, ya que sólo es resistente a los outliers verticales.

El estimador S
Un estimador más robusto puede ser obtenido enfocando el análisis desde otra perspectiva también interesante. Así, inicialmente es necesario recordar que MCO no es más que la minimización de \(n\) veces la varianza de los residuos, ya que: \({{\rm{\hat \sigma }}^2} = \frac{1}{n}\sum\limits_{i = 1}^n {r_i^2(\theta )} \). Expresión que puede ser re-escrita como: \(1 = \frac{1}{n}{\sum\limits_{i = 1}^n {\left( {\frac{{{r_i}({\rm{\theta }})}}{{{\rm{\hat \sigma }}}}} \right)} ^2}\). 
En este marco, con el fin de aumentar la robustez, en el espíritu del estimador M, la función cuadrática puede ser sustituida por otra función que conceda menos importancia a los residuos grandes: \[1 = \frac{1}{n}\sum\limits_{i = 1}^n {\rho \left( {\frac{{{r_i}({\rm{\theta }})}}{{{\rm{\hat \sigma }}}}} \right)} \]. De esta manera, el estimador S minimizará la varianza \({{\rm{\hat \sigma }}^{\rm{S}}}\) que satisfaga la siguiente expresión:
\[{\hat \theta ^S} = \arg \mathop {\min }\limits_\theta  \sum\limits_{i = 1}^n {{{{\rm{\hat \sigma }}}^S}({r_i}(\theta )} )\], condicional a que: \(\Psi  = \frac{1}{n}\sum\limits_{i = 1}^n {\rho \left( {\frac{{{r_i}({\rm{\theta }})}}{{{{{\rm{\hat \sigma }}}^{\rm{S}}}}}} \right)} \).
Donde \(\Psi  = E[\rho (Z)]\) y \(Z \sim N(0,1)\), es una corrección que restringe la condición a minimizar para garantizar Normalidad y \(\rho \) es la función TB con un punto de quiebre de \(k\)=1,547. El algoritmo para su estimación, denominado fast-S algorithm  corresponde a Salibian-Barrera y Yohai (2006). El estimador S es resistente a los outliers en las dimensiones Y y X, sin embargo existe un trade-off entre su grado de robustez y eficiencia. En STATA el comando para su implementación es sregress.

El estimador MM
Este es un estimador robusto y a su vez eficiente. Se lo puede describir como un estimador M con varianza S. Es decir, el estimador MM resulta de la combinación de los dos métodos anteriores,
\({\theta ^{MM}} = \arg \mathop {\min }\limits_\theta  \sum\limits_{i = 1}^n {{\rho }({r_i}(\theta )/{\sigma ^s})} \)
en una primera parte se implementa el estimador robusto pero de baja eficiencia S y de la misma se calcula la varianza \({{\rm{\hat \sigma }}^{\rm{S}}}\), la misma que es utilizada en una segunda parte en la estimación de un modelo redescendiente M vía Mínimos Cuadrados Ponderados Iterados pero con un valor robusto como punto de inicio en las iteraciones \(\hat \theta _0^S\), con lo que se adquiere mayor estabilidad y eficiencia. En ambas etapas la función \(\rho \) es la TB y los valores \(k\) son 1,547 y 4,685 en la primera y segunda etapa, respectivamente. El algoritmo para este método puede encontrarse en Maronna et. al., 2006, sección 5.5. Para implementar el método en STATA el comando correspondiente es mmregress.

El estimador MS
Los anteriores estimadores, sin embargo, tienen problemas en sus algoritmos en presencia de variables explicativas dicotómicas. Para subsanar ello, Maronna y Yohai (2000) proponen dividir las variables explicativas en dos grupos, las de continuas y las dicotómicas, \({Y_i} = \alpha  + \beta {X_i} + \delta {D_i} + {\varepsilon _i}\) e implementar alternando un modelo M para obtener \(\delta \), asumiendo que se conoce \(\beta \) y un modelos S para estimar \(\beta \), asumiendo que se conoce \(\delta \), hasta alcanzar la convergencia. La idea es aprovechar las propiedades de ambos métodos, el modelo M es resistente a los outliers verticales, como los creados por las variables dicotómicas, y el modelo S es resistente a los outliers en Y y X pero vulnerable en su algoritmo a la presencia de dummies. El algortimo para la estimación del modelo MS se encuentra en Maronna y Yohai (2000). En STATA el comando para aplicar este estimador es msregress.

Otros estimadores robustos
En la literatura sobre Estadística Robusta existen versiones "robustas a outliers" de diferentes métodos econométricos, por ejemplo, se tiene el modelo de Variables Instrumentales Robustas de Desbordes y Verardi (2012), el modelo Logit Robusto de Croux y Haesbroeck (2003), el modelo VAR Robusto de Muler y Yohai (2013), o el modelo de Efectos Fijos Robustos con datos de panel de Verardi y Wagner (2011), etc.
Finalmente mencionar que en R el paquete "robustbase" contiene muchas de estas herramientas.

Referencias bibliográficas
-Croux, C. y Haesbroeck, G. 2003. "Implementing the Bianco and Yohai estimator for logistic regression". Computational Statistics & Data Analysis, 44, 273–295.
-Desbordes, R., y Verardi, V. 2012. "A robust instrumental-variables estimator". The Stata Journal, 12(2), 169–181.
-Fox, J., y Weisberg, S. 2013. "Robust Regression". Lecture Notes del Professor Weisberg.
-Maronna, R., y Yohai, V.J. 2000. “Robust regression with both continuous and categorical predictors” Journal of Statistical Planning and Inference, 89, 197-214.
-Maronna, R., Martin, D., y Yohai, V. 2006. "Robust Statistics: Theory and Methods". Book Series: Wiley Series in Probability and Statistics.
-Muler, N., y Yohai, V. 2013. "Robust estimation for vector autoregressive models". Computational Statistics & Data Analysis, Volume 65, 68–79.
-Salibian-Barrera, M., y Yohai, V. 2006. "A fast algorithm for S-regression estimates". Journal of Computational and Graphical Statistics 15, 414–427.
-Verardi, V. y Wagner, J. 2011. "Robust Estimation of Linear Fixed Effects Panel Data Models with an Application to the Exporter Productivity Premium". Journal of Economics and Statistics 231(4), 546-557

°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°

sábado, 23 de enero de 2016

Outliers (I): Clasificación e Identificación

En esta ocasión se desea resaltar la importancia de considerar el efecto de las observaciones atípicas (outliers) en el análisis econométrico multivariado. Identificar outliers no es fácil pero necesario, porque los mismos se camuflan en más de dos dimensiones (masking effect) y su presencia puede llevar a distorsionar los resultados de la regresión. La estructura del post es la siguiente: inicialmente se presenta la idea de cómo el análisis de regresión, ya sea aplicando Mínimos Cuadrados Ordinarios (MCO), Máxima Verosimilitud (MV) o el Método Generalizado de Momentos (MGM), es bastante vulnerable a la presencia de outliers, luego se describen los tipos de outliers y la manera “correcta” de detectarlos en STATA.

I. En el análisis de regresión el objetivo es identificar cómo una variable dependiente se encuentra relacionado con un conjunto de variables explicativas. Unos cuantos outliers fácilmente pueden distorsionar las estimaciones de una regresión obteniéndose parámetros que no reflejen la verdadera relación entre las variables. Para visualizar este efecto supongamos una muestra con sólo dos observaciones conteniendo valores atípicos, recordemos que MCO minimiza la suma del cuadrado de los residuos y que los residuos son la diferencia entre el valor observado y el valor predicho de la variable dependiente en base al comportamiento de los regresores; nótese que el par de observaciones outliers producirán un par de residuos con valores extremos. En este marco, al elevar al cuadrado estos residuos, MCO asignará mayor peso a los mismos, y estimará parámetros de interés no representativos en base a la minimización de una suma del cuadrado de los residuos inflada por un par de valores extremos. De igual manera, MV al buscar los parámetros que con mayor probabilidad han sido generados por los datos, en presencia de outliers va a maximizar una función de probabilidad conjunta distorsionada y con una distribución no-Normal; recuérdese que la función de probabilidad conjunta es la suma, en logaritmos, de las probabilidades de realización de cada residuo. Por otro lado, MGM al estimar los parámetros que cumplan con las condiciones de momentos de la muestra, en presencia de outliers va a minimizar funciones objetivo basadas en momentos muestrales distorsionados por los outliers. Gráficamente se puede visualizar el efecto mencionado para el caso de un regresor de la siguiente manera, siendo la relación entre las variables negativa, unos cuantos outliers pueden distorsionar la estimación y puede concluirse que la relación es positiva:  


II. Los outliers pueden existir por dos factores, un simple error de tipeo al introductir los datos o al codificarlos, o simplemente que la observación tiene características diferentes a la muestra. La literatura sobre Estadística Robusta sugiere tres tipos de outliers, los llamados "vertical outliers", "good leverage points" y "bad leverage points". Una descripción didáctica de los tipos de outliers, en dos dimensiones se presenta en el siguiente gráfico, el mismo corresponde a Verardi y Croux (2009). (i) Los valores extremos verticales son aquellas observaciones que están lejos de la mayor parte de los datos en la dimensión-y, es decir, son outliers en la variable dependiente pero tienen un comportamiento similar al del grupo en la dimensión-x. Estas observaciones pueden sesgar el valor del intercepto y la pendiente. (ii) Los good leverage points (puntos de influencia buenos), son observaciones que están lejos de la mayor parte de los datos en la dimensión-x , es decir son outliers en los regresores pero que no se encuentran muy lejos de la línea de regresión. Su existencia no afecta a los estimadores pero puede afectar a la inferencia e inducir a rechazarse más fácilmente la hipótesis nula de no significatividad del coeficiente estimado; en Dehon et.al. (2009) puede encontrarse un análisis más amplio de los efectos de este tipo de outlier. (iii) Por último, los bad leverage points (puntos de influencia malos) son observaciones que se encuentran lejos de la mayor parte de los datos en la dimensión-x, y a su vez se encuentran lejos de la línea de regresión. Este tipo de outlier puede sesgar fácilmente ambos coeficientes, el intercepto y la pendiente.

III. Identificar outliers multivariados no es fácil. Los outliers univariados, o valores extremos en una variable, son fácilmente identificables a través de un simple histograma. Los outliers bivariados como los presentados en el anterior gráfico también pueden ser identificados visualmente. Sin embargo, para el caso de más de dos variables, puede suceder que una observación no sea outlier en dos dimensiones pero si en tres o cuatro, lo que ya no es visible fácilmente. Un estimador común para detectar valores extremos multivariados es la Distancia de Mahalanobis (DM), \(D{M_i} = \sqrt {({X_i} - \mu ){\Sigma ^{ - 1}}({X_i} - \mu )} \), donde \(\mu \) es el llamado vector de ubicación (location vector) que no es más que el vector de medias de las variables, \({{\Sigma ^{ - 1}}}\) es la matriz de covarianzas y \({{X_i}}\) es la fila i de la matriz de observaciones \(X\). Las DM miden la distancia de las observaciones respecto al centro de los datos (\(\mu \)) considerando la forma de los mismos (\(\Sigma \)); así las observaciones con valores de DM extremos pueden ser considerados outliers multivariados (nótese que \(MD \sim \chi _{\# {\mathop{\rm var}} iables}^2\)). El problema con esta medida, denominado el "masking effect", es que \(\mu \) y \(\Sigma \) a su vez pueden ser distorsionados por los outliers, haciendo de MD una medida no representativa de la mayoría de los datos. En la literatura sobre Estadística Robusta muchos estimadores robustos de \(\mu \) y \(\Sigma \) han sido propuestos. Dos de ellos, muy útiles y puestos a disposición de los econometristas en STATA gracias a los trabajos de Verardi y Dehon (2010) y Verardi y McCathie (2012) son el Determinante de Covarianza Mínima (Minimum Covariance Determinant, MCD) y el estimador S de ubicación y dispersión multivariada (S-estimator of location and scatter); los comandos en STATA son mcd y smultiv, respectivamente. Para mayor detalle sobre los algoritmos de estos estimadores, que por cierto son computacionalmente intensivos, se puede revisar los dos trabajos citados anteriormente. Les aconsejo el smultiv ya que es más estable. Con la información otorgada por estos comandos se puede clasificar a los outliers graficando los residuos estandarizados y las DM, ambas robustas, siguiendo el enfoque de Rousseeuw y van Zomeren (1990); en un futuro post se pondrá a disposición un código en STATA para obtener tal gráfico.
Es necesario también mencionar que cualquier medida para detectar outliers basados en los residuos, como los residuos estandarizados, las distancias de Cook, las medidas de apalancamiento, etc., sufren del problema "masking effect", es decir están basados en residuos provenientes de coeficientes yá distorsionados por los outliers, por lo que pueden proveer información errónea. 
Finalmente mencionar que una vez detectados los outliers, con mcd o smultiv, se los puede excluir del análisis de regresión o se los puede dar menor peso en la estimación. Otra estrategia para lidiar con las distorsiones creadas por observaciones atípicas es utilizar métodos de regresión robustos a outliers, tema pendiente para siguientes posts.  

Referencias

- Dehon, C., Gassner, M., y Verardi, V. (2009). Beware of good leverage points, Oxford Bulletin of economics and statistics, 71,3.
- Rousseeuw, P., y van Zomeren, B. (1990). Unmasking multivariate outliers and leverage points. Journal of the American Statistical Association, 85,141.
- Verardi, V., y Croux, C. (2009). Robust Regresion in Stata. Stata Journal, 9,3.
- Verardi, V., y Dehon, C. (2010). Multivariate outlier detection in Stata. Stata Journal, 10,2.
- Verardi, V., y McCathie, A. (2012). The S-estimator of multivariate location and scatter in Stata. Stata Journal, 12,2.


°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°