Blog de Darwin Ugarte Ontiveros: abril 2016

En el anterior post se resaltó la importancia de considerar el efecto de las observaciones atípicas (outliers) en el análisis econométrico multivariado, los tipos de outliers y la manera correcta de detectarlos en STATA. Así, una vez identificados los outliers podía excluirseles de la muestra o darles una menor ponderación en la regresión. Un segundo enfoque para lidiar con el problema de los outliers es utilizar directamente métodos econométricos que no son vulnerables a las observaciones atípicas, lo que se conoce como “Regresión Robusta”, en Maronna et. al.(2006) se encuentra un tratamiento adecuado de estos métodos.

En este post, se describe brevemente algunas de estas técnicas de “regresión robustas” a los outliers y los códigos para estimarlos en STATA. El objetivo es brindar una idea de las maneras interesantes cómo enfoca este tema la literatura.

El estimador M

Este estimador es una modificación de la función objetivo de Mínimos Cuadrados Ordinarios (MCO). Considerando que la vulnerabilidad de MCO proviene del mayor peso que se otorga a los valores extremos por elevar al cuadrado los residuos a ser minimizados, este estimador propone minimizar en su lugar otra función \(\rho \) que asigne menor peso a los residuos extremos:

\({\hat \theta ^M} = \arg \mathop {\min }\limits_\theta \sum\limits_{i = 1}^n {\rho ({r_i}(\theta )} )\)

En este marco MCO puede ser entendido como un estimador M con \(\rho = {()^2}\). En los métodos M las funciones \(\rho \) tienen que cumplir ciertas propiedades (no decreciente, simétrica, tener un único mínimo en cero, y ser menos creciente que la función cuadrática), las mismas pueden ser monótonas (si son enteramente convexas) o redescendientes (si tienen un límite establecido a partir de un valor \(k\), denominado punto de quiebre), éstas últimas son las que dan robustez a la estimación, la función redescendiente mayormente usada es la Tukey Biweight (TB).
La estimación del modelo M es un problema de Mínimos Cuadrados Ponderados Iterados con los pesos definidos como \({w_i} = \rho ({r_i}/\sigma )/r_i^2\). Como se aprecia los residuos son estandarizados por una medida de dispersión \(\sigma \) para garantizar la propiedad de equivarianza de escala, es decir, la independencia con respecto a las unidades de medida de las variables. Entonces, en la práctica se estima: \({\hat \theta ^M} = \arg \mathop {\min }\limits_\theta \sum\limits_{i = 1}^n {{w_i}(r_i^2(\theta )} )\). La necesidad de iterar surge por el hecho que los pesos \({w_i}\) dependen de los residuos, los residuos dependen de los coeficientes estimados, y los coeficientes estimados dependen de los pesos; así se necesita un punto de comienzo, en Fox y Weisberg (2013) se encuentra un resumen del algoritmo de este proceso.

Para destacar el rol de la función \(\rho \) y diferenciar un estimador con \(\rho \) monótona como MCO del estimador M con \(\rho \) redescendiente, a continuación se presentan las funciones objetivo y los ponderadores para ambos estimadores. En esta tabla inicialmente se puede observar que en MCO los residuos más grandes tienen monotónicamente mayores valores de \(\rho \), mientras que en el estimador M (con la función Tukey Biweight) los residuos más grandes tienen valores limitados de \(\rho \), a partir del punto de quiebre \(k\). De igual manera se observa que en MCO residuos extremos o pequeños reciben igual ponderación, mientras que en el estimador M los residuos extremos tienen menor peso en la estimación.

Fox y Weisberg (2013)

En STATA el estimador M con la función Tukey Biweight puede ser implementado con el comando rreg o mregress; sin embargo, debido al enfoque iterativo en su estimación, este método no tiene las propiedades de robustez deseadas, ya que sólo es resistente a los outliers verticales.

El estimador S

Un estimador más robusto puede ser obtenido enfocando el análisis desde otra perspectiva también interesante. Así, inicialmente es necesario recordar que MCO no es más que la minimización de \(n\) veces la varianza de los residuos, ya que: \({{\rm{\hat \sigma }}^2} = \frac{1}{n}\sum\limits_{i = 1}^n {r_i^2(\theta )} \). Expresión que puede ser re-escrita como: \(1 = \frac{1}{n}{\sum\limits_{i = 1}^n {\left( {\frac{{{r_i}({\rm{\theta }})}}{{{\rm{\hat \sigma }}}}} \right)} ^2}\).

En este marco, con el fin de aumentar la robustez, en el espíritu del estimador M, la función cuadrática puede ser sustituida por otra función que conceda menos importancia a los residuos grandes: \[1 = \frac{1}{n}\sum\limits_{i = 1}^n {\rho \left( {\frac{{{r_i}({\rm{\theta }})}}{{{\rm{\hat \sigma }}}}} \right)} \]. De esta manera, el estimador S minimizará la varianza \({{\rm{\hat \sigma }}^{\rm{S}}}\) que satisfaga la siguiente expresión:

\[{\hat \theta ^S} = \arg \mathop {\min }\limits_\theta \sum\limits_{i = 1}^n {{{{\rm{\hat \sigma }}}^S}({r_i}(\theta )} )\], condicional a que: \(\Psi = \frac{1}{n}\sum\limits_{i = 1}^n {\rho \left( {\frac{{{r_i}({\rm{\theta }})}}{{{{{\rm{\hat \sigma }}}^{\rm{S}}}}}} \right)} \).

Donde \(\Psi = E[\rho (Z)]\) y \(Z \sim N(0,1)\), es una corrección que restringe la condición a minimizar para garantizar Normalidad y \(\rho \) es la función TB con un punto de quiebre de \(k\)=1,547. El algoritmo para su estimación, denominado fast-S algorithm corresponde a Salibian-Barrera y Yohai (2006). El estimador S es resistente a los outliers en las dimensiones Y y X, sin embargo existe un trade-off entre su grado de robustez y eficiencia. En STATA el comando para su implementación es sregress.

El estimador MM
Este es un estimador robusto y a su vez eficiente. Se lo puede describir como un estimador M con varianza S. Es decir, el estimador MM resulta de la combinación de los dos métodos anteriores,

\({\theta ^{MM}} = \arg \mathop {\min }\limits_\theta \sum\limits_{i = 1}^n {{\rho }({r_i}(\theta )/{\sigma ^s})} \)

en una primera parte se implementa el estimador robusto pero de baja eficiencia S y de la misma se calcula la varianza \({{\rm{\hat \sigma }}^{\rm{S}}}\), la misma que es utilizada en una segunda parte en la estimación de un modelo redescendiente M vía Mínimos Cuadrados Ponderados Iterados pero con un valor robusto como punto de inicio en las iteraciones \(\hat \theta _0^S\), con lo que se adquiere mayor estabilidad y eficiencia. En ambas etapas la función \(\rho \) es la TB y los valores \(k\) son 1,547 y 4,685 en la primera y segunda etapa, respectivamente. El algoritmo para este método puede encontrarse en Maronna et. al., 2006, sección 5.5. Para implementar el método en STATA el comando correspondiente es mmregress.

El estimador MS
Los anteriores estimadores, sin embargo, tienen problemas en sus algoritmos en presencia de variables explicativas dicotómicas. Para subsanar ello, Maronna y Yohai (2000) proponen dividir las variables explicativas en dos grupos, las de continuas y las dicotómicas, \({Y_i} = \alpha + \beta {X_i} + \delta {D_i} + {\varepsilon _i}\) e implementar alternando un modelo M para obtener \(\delta \), asumiendo que se conoce \(\beta \) y un modelos S para estimar \(\beta \), asumiendo que se conoce \(\delta \), hasta alcanzar la convergencia. La idea es aprovechar las propiedades de ambos métodos, el modelo M es resistente a los outliers verticales, como los creados por las variables dicotómicas, y el modelo S es resistente a los outliers en Y y X pero vulnerable en su algoritmo a la presencia de dummies. El algortimo para la estimación del modelo MS se encuentra en Maronna y Yohai (2000). En STATA el comando para aplicar este estimador es msregress.

Otros estimadores robustos
En la literatura sobre Estadística Robusta existen versiones "robustas a outliers" de diferentes métodos econométricos, por ejemplo, se tiene el modelo de Variables Instrumentales Robustas de Desbordes y Verardi (2012), el modelo Logit Robusto de Croux y Haesbroeck (2003), el modelo VAR Robusto de Muler y Yohai (2013), o el modelo de Efectos Fijos Robustos con datos de panel de Verardi y Wagner (2011), etc.
Finalmente mencionar que en R el paquete "robustbase" contiene muchas de estas herramientas.

Referencias bibliográficas
-Croux, C. y Haesbroeck, G. 2003. "Implementing the Bianco and Yohai estimator for logistic regression". Computational Statistics & Data Analysis, 44, 273–295.
-Desbordes, R., y Verardi, V. 2012. "A robust instrumental-variables estimator". The Stata Journal, 12(2), 169–181.
-Fox, J., y Weisberg, S. 2013. "Robust Regression". Lecture Notes del Professor Weisberg.

-Maronna, R., y Yohai, V.J. 2000. “Robust regression with both continuous and categorical predictors” Journal of Statistical Planning and Inference, 89, 197-214.
-Maronna, R., Martin, D., y Yohai, V. 2006. "Robust Statistics: Theory and Methods". Book Series: Wiley Series in Probability and Statistics.

-Muler, N., y Yohai, V. 2013. "Robust estimation for vector autoregressive models". Computational Statistics & Data Analysis, Volume 65, 68–79.
-Salibian-Barrera, M., y Yohai, V. 2006. "A fast algorithm for S-regression estimates". Journal of Computational and Graphical Statistics 15, 414–427.

-Verardi, V. y Wagner, J. 2011. "Robust Estimation of Linear Fixed Effects Panel Data Models with an Application to the Exporter Productivity Premium". Journal of Economics and Statistics 231(4), 546-557

°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°

Blog de Darwin Ugarte Ontiveros

sábado, 16 de abril de 2016

Outliers (II): Regresión Robusta