Bienvenidos a mi blog, soy economista, mi área de especialización es la investigación académica, mis tópicos de interés son la economía del desarrollo y los métodos econométricos. En este espacio encontrarán información sobre temas relacionados con la Econometría, así también algunos de mis trabajos sobre la Economía Boliviana. El objetivo es contribuir al conocimiento, el análisis y debate sobre temas de interés para los economistas y econometristas bolivianos. Cualquier contribución es bienvenida.

lunes, 9 de julio de 2018

Un programa en STATA para identificar y clasificar outliers multivariados

En el análisis de regresión, pocas observaciones con comportamiento diferente a la mayoría (outliers) pueden distorsionar completamente las estimaciones de los parámetros, e inducir a inferencias erróneas sobre las relaciones entre las variables. La identificación de outliers en el análisis multivariante no es sencillo por dos motivos:
(i) Observaciones con valores extremos en una o dos dimensiones pueden no serlo en más dimensiones; así, desacertadamente se podría eliminar observaciones que sí pertenecen a la distribución de los datos.
(ii) Las medidas tradicionales para identificar outliers multivariados en el análisis de regresión como los residuos estandarizados, medidas de apalancamiento o distancias de Cook, etc., sufren los llamados "masking y swamping effects": estas medidas utilizadas para identificar outliers, se encuentran por su construcción ya distorsionadas por los outliers; así las mismas erróneamente pueden sub categorizar (masking) o sobre categorizar (swamping) observaciones con el status de outliers.
Este post presenta un programa en STATA del tipo do-file para identificar y categorizar outliers multivariados para datos de corte transversal, implementando la herramienta sugerida por Rousseeauw y vanZomeren (1990), la misma que no sufre de los mencionados "masking y swamping effects". Espero les sea útil.

a) Tipos de outliers en datos de corte transversal
La literatura sobre Estadística Robusta sugiere la existencia de tres tipos de outliers, véase la siguiente figura: (i) los llamados "vertical outliers", son las observaciones con valores extremos en la dimensión-y (la variable dependiente), pero que tienen un comportamiento similar al de la muestra en la dimensión-x; las mismas pueden sesgar el valor del intercepto y la pendiente. (ii) Los "good leverage points" (puntos de influencia buenos), son observaciones con valores extremos en las dimensiones y y (son outliers en la variable dependiente y en los regresores), pero que cumplen la característica que no se encuentran muy lejos de la línea de regresión, justamente por ello, las mismas no afectan a los coeficientes, pero si la inferencia (inducen a rechazar la hipótesis nula de no significatividad, Dehon et al., 2009). (iii) Los "bad leverage points" (puntos de influencia malos) son observaciones que se encuentran alejados de la muestra en la dimensión-x, y a su vez lejos de la línea de regresión; los mismos sesgan fácilmente ambos coeficientes, el intercepto y la pendiente.

Fuente: Verardi y Croux (2009)
b) El esquema de Rousseauw y vanZomeren (1990) y su código en STATA
El mismo consiste en graficar en el eje de las ordenadas los residuos estandarizados y en el eje de las abscisas las distancias de Mahalanobis. Para mayores detalles y evidencia sobre su "robustez", véase Rousseeauw y vanZomeren (1990), Maronna et. al. (2006).
Los residuos estandarizados son la medida utilizada para identificar valores extremos en la dimensión-y, éstas consisten en el cociente residuos sobre su desviación estándar, \({r_i}/\sigma{(r)_i}\). Para que ésta sea resistente a outliers (robusto), en el numerador se utilizan los residuos de la regresión S, y en el denominador, como medida de dispersión se utiliza la desviación absoluta mediana normalizada: \(MAD(r)={Med\left| {{r}_{i}}-Med(r)\right|}/{0.6745}\;\). Valores de estos residuos mayores a 2,25 en valor absoluto requieren atención ya que pueden ser o "good leverage points(si a su vez estas observaciones son valores extremos en x), o "vertical outliers" (si no son outliers en x). 
Para medir valores extremos en la dimensión-x, para cada observación se calcula la distancia de Mahalanobis, \(M{{D}_{i}}=\sqrt{({{x}_{i}}-\mu){{\Sigma }^{-1}}{{({{x}_{i}}-\mu )}^{T}}}\), donde \(\mu \) representa el vector de medias y \(\Sigma \) la matriz de covarianzas; las \(M{{D}_{i}}\) pueden entenderse como la distancia estandarizada de cada observación al centro de los datos. Al tener una distribución chi-2, observaciones con valores mayor a \(M{{D}_{i}}>\sqrt{\chi _{NumdeVariables,0.975}^{2}}\) pueden definirse como valores extremos en la dimensión-x, y éstas pueden ser o "good leverage points" (si a su vez estas observaciones son valores extremos en y), o "bad leverage points" (si no son outliers en x)Asimismo, para que las \(M{{D}_{i}}\) sean robustas, \(\mu\) y \(\Sigma \) se calculan a través del estimador S-multivariado; éste último detalle define la contribución del presente programa.

El programa en STATA para obtener este gráfico es el siguiente. El programa hace uso de los comandos smultiv, sregress, msregress de Verardi y Croux (2010) es muy importante que el lector instale los mismos en su computadora. Puede hacerlo utilizando los comandos findit o ssc install.

*******************
program define outid
syntax varlist , [dummies(varlist)]
local dv: word 1 of `varlist'
local expl: list varlist - dv
local ndum: word count `dummies'
local nvar: word count `varlist'
local p=`ndum'+`nvar'
local b=sqrt(invchi2(`p'),0.975)
capture drop outS rdS id
capture qui smultiv `expl', gen(outS rdS) dummies(`dummies')
label var rdS "Robust_distance_S"
gen id=_n
if `ndum'==0 {
capture drop S_outlier S_stdres
capture qui mmregress `dv' `expl', outlier
capture drop stdres
rename S_stdres stdres
}
else {
capture drop MS_outlier  MS_stdres
capture qui mmregress `dv' `expl', outlier dummies(`dummies')
capture drop stdres
rename MS_stdres stdres
}
label var stdres "Robust standardized residuals"
twoway (scatter stdres rdS if abs(stdres)<4&rdS<sqrt(2)*`b') (scatter stdres rdS if abs(stdres)>=4|rdS>=2*`b', mlabel(id) msymbol(circle_hollow)), xline(`b') yline(2.25) yline(-2.25) legend(off)
capture drop vo glp blp
gen vo=(abs(stdres)>2 & rdS<`b')
gen glp=(abs(stdres)<2 & rdS>`b')
gen blp=(abs(stdres)>2 & rdS>`b')
label var vo "Vertical outliers"
label var glp "Good leverage points"
label var blp "Bad leverage points"
edit id vo glp blp stdres rdS `varlist' `dummies' if vo==1 | glp==1 | blp==1
end
*******************

Para implementar estos códigos en STATA, el usuario debe copiar los mismos en un do-file, correr el programa y luego aplicar el mismo a su modelo de regresión de acuerdo a la siguiente sintaxis:

outid   Variable_dependiente    Variables_explicativas _continuas, dummies(Variables_explicativas_categóricas)

Un ejemplo de aplicación se presenta a continuación. En un do-file se puede escribir:

clear
set obs 300
set seed 1010
drawnorm x1-x5 e
gen i= _n
gen d1=(x4>0.7)
gen d2=(x5<-0.9)
gen y=x1+x2+x3+d1+d2+e
replace x1=invnorm(uniform())+10 in 1/20
replace y=invnorm(uniform())+10 in 15/30
scatter y x1, mlabel(i)

En este esquema las observaciones 1 al 14 son outliers del tipo bad leverage points, las observaciones 15 a 20 son good leverage points, mientras que las observaciones 20 a 30 son vertical outliers. En este escenario, para identificar y clasificar los outliers se puede implementar el programa descrito mediante la siguiente sintaxis en STATA:
outid y x1 x2 x3, dummies(d1 d2)

Los resultados que se obtienen al implementarse el programa outid son los siguientes: el gráfico de Rousseeauw y vanZomeren (1990) y la representación en la base de datos de las observaciones identificadas como outliers.


El siguiente diagrama es útil para fines de interpretación.

Una vez identificados los outliers se debería analizar cada caso, si corresponden a la muestra, o si son typos, o tal vez información errónea del proceso de levantamiento de los datos. Asumiendo que todos corresponden a la muestra pero no representan a la misma, una estrategia racional es correr las regresiones con y sin outliers, y comparar los coeficientes para ver el nivel de importancia de estas observaciones sobre las estimaciones (se podría usar un test de Haussman para este propósito).  Es decir:

Nótese que la primera regresión es con la muestra contaminada por los outliers, mientras que la segunda es con la muestra sin los outliers identificados con el programa outid.

Como se expresó anteriormente, la contribución de este programa radica en el uso del estimador S-multivariado para calcular el centro y dispersión de los datos de manera robusta. En STATA, los comandos de Verardi y Croux (2010) permiten obtener la representación de Rousseeauw y vanZomeren (1990), utilizando la opción graph, pero utilizando el estimador Determinante de Covarianza Mínima (Minimum Covariance Determinant, MCD) para identificar los outliers en x. Sin embargo, como demuestran Verardi y McCathie (2013), el MCD es inestable, presenta baja eficiencia, es computacionalmente pesado, y es superado en propiedades por el estimador S-multivariado, el mismo que se implementa en outid. Para mayores detalles y evidencia sobre las propiedades en muestras finitas del presente programa véase Ugarte y Morales (2018).

Referencias bibliográficas
- Dehon, C., Gassner, M., y Verardi, V. (2009). Beware of good leverage points, Oxford Bulletin of economics and statistics, 71,3.
-Maronna, R., Martin, D., y Yohai, V. 2006. Robust Statistics: Theory and Methods. Book Series: Wiley Series in Probability and Statistics.
- Rousseeuw, P., y van Zomeren, B. (1990). Unmasking multivariate outliers and leverage points. Journal of the American Statistical Association, 85,141.
- Ugarte y Morales (2018). Técnicas robustas y no robustas para identificar outliers multivariados en el análisis de regresión, mimeo.
- Verardi, V., y Croux, C. (2009). Robust Regresion in Stata. Stata Journal, 9,3.
- Verardi, V., y Dehon, C. (2010). Multivariate outlier detection in Stata. Stata Journal, 10,2.
- Verardi, V., y McCathie, A. (2012). The S-estimator of multivariate location and scatter in Stata. Stata Journal, 12,2.

°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°

lunes, 11 de septiembre de 2017

Por qué no se debe usar el filtro de Hodrick-Prescott

En series de tiempo, las variables suelen presentar un sentido o tendencia que las hace "no-estacionarias", es decir dependientes del tiempo. Para remover la misma es común analizar la serie en diferencias (si la tendencia es estocástica), o utilizar los residuos de una regresión de la serie con la variable tiempo como explicativa (si la tendencia es determinística).
Sin embargo, muchas veces en lugar de remover la tendencia resulta de interés estimar la misma. En macroeconomía, por ejemplo, la tendencia del PIB se interpreta como el PIB potencial y la diferencia de la serie respecto a esta tendencia se entiende como la brecha del producto. Para estos fines un método estadístico frecuentemente utilizado es el famoso filtro Hodrick-Prescott (fHP), técnica que permite descomponer una serie en una tendencia estocástica (que cambia en el tiempo) y en un componente cíclico (que representa las fluctuaciones de corto plazo).
El fHP (Hodrick y Prescott, 1980, 1997) destaca porque ha sobrevivido en el tiempo los argumentos de investigaciones que observaban sus propiedades y se ha constituido en una herramienta convencional en muchas áreas de la macroeconomía, especialmente en la economía de los ciclos reales. Actualmente, y probablemente a raíz del debate Bullard - Krugman del 2012, las propiedades del fHP nuevamente han cobrado relevancia como tema de análisis en la literatura. El presente post tiene el objeto de sistematizar algunas de estas conclusiones, el título resembla al del trabajo del profesor James Hamilton: "Why You Should Never Use the Hodrick-Prescott Filter" [link], el mismo que se constituyó en inspiración para la presente redacción. El post concluye intentando responder a la interrogante "Entonces, qué filtro deberíamos utilizar?".

a) El filtro de Hodrick-Prescott (fHP) 
Para estimar la tendencia estocástica de una serie, el fHP minimiza la siguiente expresión
\[\mathop {\min }\limits_{\left\{ {Y_t^T} \right\}_{t = 1}^S} {\rm{ }}\left\{ {\sum\limits_{t = 1}^S {{{({Y_t} - Y_t^T)}^2}}  + \lambda \sum\limits_{t = 2}^{S - 1} {{{(\Delta Y_{t + 1}^T - \Delta Y_t^T)}^2}} } \right\}\]
El primer término de la ecuación es la suma de las desviaciones de la serie (\({Y_t}\)) respecto a la tendencia (\(Y_t^T\)) al cuadrado, una medida del grado de ajuste. El segundo término es la suma de cuadrados de las segundas diferencias de la tendencia, una medida del grado de suavidad o curvatura de la serie. El parámetro de suavizamiento de la tendencia es lambda (λ), cuando λ→∞ la tendencia \({Y_t^T}\) es más suave (menos irregular), prácticamente lineal, y cuando λ→0 entonces \({Y_t^T}→{Y_t}\) El componente cíclico será \(Y_t^C = Y_t^{} - Y_t^T\).
Simplificadamente, la solución al problema de minimización puede expresarse como: \(Y_t^T = \Psi {Y_t}\), es decir la tendencia es una función \(\Psi\), una combinación lineal de los valores de la serie \({Y_t}\). Por ello, la tendencia suele también ser expresada como un promedio ponderado de la serie \(Y_t^T = \sum {{w_t}{Y_t}}\). Existen muchas expresiones desarrolladas para \(\Psi\), al respecto se debe destacar que la misma es generalmente una función del parámetro de suavizamiento (λ), y de operadores rezago \(({L^i}\)) y de adelanto \(({F^i}\)) aplicadas a la serie original [nótese por ejemplo que \({L^2}Y = {Y_{t - 2}}\) y que \({F^2}Y = {Y_{t + 2}}\)]. Por ello, el fHP es caracterizado en la literatura como un filtro simétrico que considera valores futuros y pasados de una serie para predecir su tendencia y ciclos.

b) Evaluación de las propiedades del filtro de Hodrick-Prescott
    b1) Primera generación de críticas
-Entre los primeros trabajos que revisaron las propiedades del fHP se tiene el de King y Rebelo (1993) y el de Cogley y Nason (1995). Ambos trabajos sugieren que el fHP produce ciclos espurios en series con tendencia determinística o estocástica, y que el análisis multivariado de datos filtrados mediante el fHP puede mostrar autocorrelaciones y correlaciones cruzadas significativas aún cuando las mismas sean inexistente en los datos originales. De igual manera, Meyer y Winker (2005) a través de simulaciones sugieren un alto riesgo de regresiones espurias con series filtradas por el fHP.
-Por su parte, Mise et. al. (2005), destacan el hecho que el fHP considera valores futuros y pasados de una serie para sus estimaciones. Así, la ausencia de éstos valores en los puntos iniciales y finales de una serie, "los extremos", hace subóptima las estimaciones del fHP en estos puntos. Estos autores, a su vez sugieren lo que se constituyó en una práctica común: utilizar predicciones de la serie para lidiar con la ausencia de información en los extremos. Nótese que el sesgo en el extremo final de una serie imposibilita la aplicación del fHP para realizar análisis en tiempo real; véase Orphanides y van Norden (2002).
-Otro aspecto que genera controversia en el uso del fHP es el valor óptimo del factor de suavizamiento λ. A partir del trabajo de Ravn y Uhlig (2002) el valor λ=1600 para datos trimestrales se estableció como parámetro convencional; mientras que para series mensuales o anuales no existe aún consenso; véase de Jong y Sakarya (2016a). La crítica al respecto plantea la necesidad de utilizar valores de λ que se adecuen a las características intrínsecas de las series y que éstas no se basen solamente en la frecuencia de los datos.
    b2) El debate Bullard vs. Krugman
Calculando la tendencia del PIB con el fHP, el entonces y actual presidente del Banco de la Reserva Federal de San Luis, James Bullard, sostenía en 2012 que la economía estadounidense se encontraba cerca de su nivel potencial [link]. Así, los efectos de la burbuja inmobiliaria y la crisis financiera sobre este país se habían terminado y no había necesidad de implementar políticas fiscales o monetarias expansivas.
Una de las respuestas al debate, la de Paul Krugman [link], se concentraba en la pertinencia de la técnica utilizada para tal conclusión. Bajo el argumento de que "una técnica estadística es apropiada sólo si los supuestos subyacentes detrás de esa técnica reflejan la realidad económica", Krugman destaca que en el fHP, las desviaciones respecto a la tendencia son asumidas como de corto plazo, así éstas tienden a corregirse rápidamente. Esta afirmación se basa en la expresión \(Y_t^T = \sum {{w_t}{Y_t}}\) dónde los valores futuros tienen participación en la estimación de la tendencia. En este marco, como destaca Krugman, en el caso de una caída sostenida del producto, en cada período ésta es asumida por el fHP como de corto plazo estimando una tendencia de largo plazo a la baja. Así, por la naturaleza del filtro en épocas de recesiones no sería sorprendente encontrar períodos en los que una economía se encuentre por encima o cerca de su nivel potencial, esto simplemente debido a que el fHP bajó la tendencia.
Probablemente fruto de este debate resurge en la literatura la necesidad de conocer con más detalle las propiedades del FHP, dando lugar a lo que llamaremos la segunda generación de críticas.
   b3) Segunda generación de críticas
-Sobre el tema de los ciclos y tendencia espurias, Hamilton (2017) calcula una expresión de \(\Psi\) donde demuestra que los ciclos que éste obtiene son enteramente una función del parámetro lambda (λ), y de la implementación de la cuarta diferencia (\({\Delta ^4}\)) a valores pasados y futuros de la serie. Así los sesgos del fHP tendrían su origen en la sobre-diferenciación \(({\Delta ^4}\)) y la inclusión de factores ajenos a las características de las series en tiempo real (λ y los valores futuros).
Phillips y Jin (2015), a su vez, analizan las propiedades asintóticas del fHP para diferentes combinaciones de λ→∞ y n→∞. Sugieren un orden de convergencia del fHP de \(\lambda = O({n^4})\), y que en este escenario esta técnica no remueve la tendencia estocástica, sino una versión suavizada de la misma, factor que explicaría los ciclos espurios de este filtro.
de Jong y Sakarya (2016a,b), entre otros resultados, concluyen que las estimaciones del fHP para series integradas son "débilmente dependientes", es decir no son estrictamente estacionarias: la \(Cov({Y_t},{Y_{t + h}}) \to 0\) sólo en tanto \(h \to \infty\). También sugieren que el fHP es incapaz de remover tendencias determinísticas exponenciales, por lo que no sería aconsejable su aplicación a series medidas en términos nominales.
-Sobre el factor de suavizamiento λ, Hamilton (2017) plantea la no optimabilidad del valor λ=1600, en el sentido que ésta no maximiza la función de verosimilitud de los datos. Sin embargo, de Jong y Sakarya (2016a) sugieren que en muestras grandes podría usarse los valores de Ravn y Uhlig (2002),  λ=1600 y 129600 para datos trimestrales y mensuales, respectivamente.
-Respecto al problema del sesgo en los extremos, Cornea-Madeira (2017) y de Jong y Sakarya (2016a) obtienen expresiones exactas para los pesos \({{w_t}}\), enfatizando la diferencia de los mismos a lo largo de la serie con los extremos.
-Finalmente, mencionar que Hamilton (2017) plantea una alternativa: estimar la regresión de \({Y_{t + h}} = {\beta _0} + {\beta _1}{Y_t} + {\beta _2}{Y_{t - 1}} + {\beta _3}{Y_{t - 2}} + {\beta _4}{Y_{t - 3}} + {\nu _{t + h}}\) y utilizar los residuos como una estimación del componente cíclico (para datos trimestrales sugiere h=8).

c) Entonces, qué filtro deberíamos utilizar?
Existen muchas técnicas para extraer el componente cíclico de una serie. En economía las más conocidas además del fHP son: la descomposición de Nelson-Beveridge (NB), el filtro de Baxter y King (fBK), y el filtro de Cristiano y Fitzgerald (fCF), entre otros; véase Canova (2007, Cap. 3) para una revisión de las mismas.
Ahora, la respuesta al título de esta sección no es muy clara. Es necesario en la literatura un trabajo contundente que evalúe al mismo tiempo las propiedades de estas técnicas bajo múltiples escenarios. Un intento en este sentido es Estrella (2007) quien concluye que ningún método se desempeña adecuadamente en todos los casos. Para el caso de interés, series I(1), Estrella sugiere que los filtros son semejantes en su propensión a sobre-estimar la tendencia. El análisis comparativo de Larsson y Vasi (2012) concluye de igual manera que para datos trimestrales los productos de los filtros fHP, fBK y fCF son similares. Por otro lado, analizando la serie del PIB real de Estados Unidos, Perron y Wada (2009) encuentran estimaciones símiles del fHP y fBK, una vez considerada la posibilidad de quiebre estructural.
Entonces, si la evidencia existente apunta a que los filtros producirían resultados semejantes, éstos deberían de alguna manera reproducir los problemas mencionados para el fHP en párrafos anteriores. Evidencia al respecto se encuentra en Murray (2003), quien alude sesgos en el filtro de Baxter y King (fBK) para series con tendencia estocástica, mientras que Smith (2016) concluye lo mismo para el caso del filtro de Cristiano y Fitzgerald (fCF).
Por todo lo mencionado, se precisa cautela al momento de extraer conclusiones basadas en la aplicación de estas técnicas. Si el objetivo es estimar el producto potencial, se debería implementar diferentes filtros, comparar sus resultados, y éstos resultados deberían complementarse con estimaciones basadas en otros enfoques como el de la función de producción, u otras técnicas multivariadas; véase D'Auria (2010), Claus (2003), Benes et. al. (2010). Sin embargo, es necesario en la literatura un trabajo contundente que evalúe al mismo tiempo y bajo múltiples escenarios, las propiedades de los filtros estadísticos tradicionales, así como de otras propuestas existentes no tan conocidas al no ser ofrecidas en los softwares habituales, como la de Valle (2011), Kauermann et. al. (2011), Hamilton (2017), etc., por ejemplo.  

REFERENCIAS
-Benes, J., K. Clinton, R. Garcia-Saltos, M. Johnson, D. Laxton, P. Manchev and T. Matheson. (2010). "Estimating Potential Output with a Multivariate Filter". IMF Working Paper, WP/10/285.
-Canova, F. (2007). "Methods for Applied Macroeconomic Research". Princeton University Press.
-Claus, I. (2003). "Estimating potential output for New Zealand". Applied Economics, 35.
-Cogley, T., and J. M. Nason (1995). "Effects of the Hodrick-Prescott Filter on Trend and Difference Stationary Time Series: Implications for Business Cycle Research" Journal of Economic Dynamics and Control, 19(1-2).
-Cornea-Madeira, A. (2017). "The Explicit Formula for the Hodrick-Prescott Filter in Finite Sample" Review of Economics and Statistics, 99(2).
-D'Auria,F., C. Denis, K. Havik, K. McMorrow, C. Planas, R. Raciborski, W. Röger and A. Rossi (2010). "The production function methodology for calculating potential growth rates and output gaps". Economic Papers 420, European Comission.
-de Jong, R., and N. Sakarya (2016a). "The Econometrics of the Hodrick-Prescott Filter" The Review of Economics and Statistics 2016 (98)2.
-de Jong, R., and N. Sakarya (2016b). "A property of the Hodrick-Prescott Filter and its application". Job market paper.
-Estrella, A. (2007). "Extracting Business Cycle Fluctuations: What Do Time Series Filters Really Do?". Federal Reserve Bank of New York Staff Report 289
-Hamilton, J.D. (2017). "Why You Should Never Use the Hodrick-Prescott Filter". NBER Working Paper No. 23429.
-Hodrick, R. J. and E.C. Prescott (1980). "Postwar US business cycles: an empirical investigation". Carnegie Mellon University discussion paper, 451.
-Hodrick, R. J. and E.C. Prescott (1997). "Postwar US business cycles: an empirical investigation". Journal of Money, Credit, and Banking, (1)16.
-Kauermann, G., T. Krivobokova, W. Semmler (2011). "Filtering Time Series with Penalized Splines". Studies in Nonlinear Dynamics and Econometrics, 15(2).
-King, R.G. and S.T. Rebelo (1993). "Low frequency filtering and real business cycles". Journal of Economic Dynamics and Control 17(1).
-Larsson, G., and T. Vasi. (2012). "Comparison of detrending methods". Department of statistics, Uppsala University.
-Meyer, M. and P. Winker (2005). "Using HP Filtered Data for Econometric Analysis: Some Evidence from Monte Carlo Simulations". Allgemeines Statistisches Archiv, Springer (89).
-Mise, E., Kim, T.-H. and Newbold, P. (2005). "On suboptimality of the Hodrick-Prescott Fi lter at time series endpoints". Journal of Macroeconomics (27).
-Murray. C.J. (2003). "Cyclical properties of Baxter-King filtered time series". The Review of Economics and Statistics, 85(2).
-Perron, P. and, T. Wada. (2009). "Let’s take a break:Trends and cycles in US real GDP". Journal of Monetary Economics (56).
-Phillips, P.C.B., and S. Jin (2015). "Business Cycles, Trend Elimination, and the HP Filter". Working paper, Yale University.
-Smith, J. (2016). "Spurious Periodicity in Christiano-Fitzgerald Filtered Time Series". University of Houston
-Ravn, M. O. and H. Uhlig (2002). "On adjusting the Hodrick-Prescott filter for the frequency of observations". Review of Economics and Statistics 84(2).
-Valle e Azevedo, J. (2011). "A multivariate band-pass filter for economic time series". Applied Statistics 60.

°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°

sábado, 16 de abril de 2016

Outliers (II): Regresión Robusta

En el anterior post se resaltó la importancia de considerar el efecto de las observaciones atípicas (outliers) en el análisis econométrico multivariado, los tipos de outliers y la manera correcta de detectarlos en STATA. Así, una vez identificados los outliers podía excluirseles de la muestra o darles una menor ponderación en la regresión. Un segundo enfoque para lidiar con el problema de los outliers es utilizar directamente métodos econométricos que no son vulnerables a las observaciones atípicas, lo que se conoce como “Regresión Robusta”, en Maronna et. al.(2006) se encuentra un tratamiento adecuado de estos métodos. 
En este post, se describe brevemente algunas de estas técnicas de “regresión robustas” a los outliers y los códigos para estimarlos en STATA. El objetivo es brindar una idea de las maneras interesantes cómo enfoca este tema la literatura.

El estimador M
Este estimador es una modificación de la función objetivo de Mínimos Cuadrados Ordinarios (MCO). Considerando que la vulnerabilidad de MCO proviene del mayor peso que se otorga a los valores extremos por elevar al cuadrado los residuos a ser minimizados, este estimador propone minimizar en su lugar otra función \(\rho \) que asigne menor peso a los residuos extremos:
\({\hat \theta ^M} = \arg \mathop {\min }\limits_\theta  \sum\limits_{i = 1}^n {\rho ({r_i}(\theta )} )\)
En este marco MCO puede ser entendido como un estimador M con \(\rho  = {()^2}\). En los métodos M las funciones \(\rho \) tienen que cumplir ciertas propiedades (no decreciente, simétrica, tener un único mínimo en cero, y ser menos creciente que la función cuadrática), las mismas pueden ser monótonas (si son enteramente convexas) o redescendientes (si tienen un límite establecido a partir de un valor \(k\), denominado punto de quiebre), éstas últimas son las que dan robustez a la estimación, la función redescendiente mayormente usada es la Tukey Biweight (TB).
La estimación del modelo M es un problema de Mínimos Cuadrados Ponderados Iterados con los pesos definidos como \({w_i} = \rho ({r_i}/\sigma )/r_i^2\). Como se aprecia los residuos son estandarizados por una medida de dispersión \(\sigma \) para garantizar la propiedad de equivarianza de escala, es decir, la independencia con respecto a las unidades de medida de las variables. Entonces, en la práctica se estima:  \({\hat \theta ^M} = \arg \mathop {\min }\limits_\theta  \sum\limits_{i = 1}^n {{w_i}(r_i^2(\theta )} )\). La necesidad de iterar surge por el hecho que los pesos \({w_i}\) dependen de los residuos, los residuos dependen de los coeficientes estimados, y los coeficientes estimados dependen de los pesos; así se necesita un punto de comienzo, en Fox y Weisberg (2013) se encuentra un resumen del algoritmo de este proceso. 
Para destacar el rol de la función \(\rho \) y diferenciar un estimador con \(\rho \) monótona como MCO del estimador M con \(\rho \) redescendiente, a continuación se presentan las funciones objetivo y los ponderadores para ambos estimadores. En esta tabla inicialmente se puede observar que en MCO los residuos más grandes tienen monotónicamente mayores valores de \(\rho \), mientras que en el estimador M (con la función Tukey Biweight) los residuos más grandes tienen valores limitados de \(\rho \), a partir del  punto de quiebre \(k\). De igual manera se observa que en MCO residuos extremos o pequeños reciben igual ponderación, mientras que en el estimador M los residuos extremos tienen menor peso en la estimación.
Fox y Weisberg (2013)

En STATA el estimador M con la función Tukey Biweight puede ser implementado con el comando rreg o mregress; sin embargo, debido al enfoque iterativo en su estimación, este método no tiene las propiedades de robustez deseadas, ya que sólo es resistente a los outliers verticales.

El estimador S
Un estimador más robusto puede ser obtenido enfocando el análisis desde otra perspectiva también interesante. Así, inicialmente es necesario recordar que MCO no es más que la minimización de \(n\) veces la varianza de los residuos, ya que: \({{\rm{\hat \sigma }}^2} = \frac{1}{n}\sum\limits_{i = 1}^n {r_i^2(\theta )} \). Expresión que puede ser re-escrita como: \(1 = \frac{1}{n}{\sum\limits_{i = 1}^n {\left( {\frac{{{r_i}({\rm{\theta }})}}{{{\rm{\hat \sigma }}}}} \right)} ^2}\). 
En este marco, con el fin de aumentar la robustez, en el espíritu del estimador M, la función cuadrática puede ser sustituida por otra función que conceda menos importancia a los residuos grandes: \[1 = \frac{1}{n}\sum\limits_{i = 1}^n {\rho \left( {\frac{{{r_i}({\rm{\theta }})}}{{{\rm{\hat \sigma }}}}} \right)} \]. De esta manera, el estimador S minimizará la varianza \({{\rm{\hat \sigma }}^{\rm{S}}}\) que satisfaga la siguiente expresión:
\[{\hat \theta ^S} = \arg \mathop {\min }\limits_\theta  \sum\limits_{i = 1}^n {{{{\rm{\hat \sigma }}}^S}({r_i}(\theta )} )\], condicional a que: \(\Psi  = \frac{1}{n}\sum\limits_{i = 1}^n {\rho \left( {\frac{{{r_i}({\rm{\theta }})}}{{{{{\rm{\hat \sigma }}}^{\rm{S}}}}}} \right)} \).
Donde \(\Psi  = E[\rho (Z)]\) y \(Z \sim N(0,1)\), es una corrección que restringe la condición a minimizar para garantizar Normalidad y \(\rho \) es la función TB con un punto de quiebre de \(k\)=1,547. El algoritmo para su estimación, denominado fast-S algorithm  corresponde a Salibian-Barrera y Yohai (2006). El estimador S es resistente a los outliers en las dimensiones Y y X, sin embargo existe un trade-off entre su grado de robustez y eficiencia. En STATA el comando para su implementación es sregress.

El estimador MM
Este es un estimador robusto y a su vez eficiente. Se lo puede describir como un estimador M con varianza S. Es decir, el estimador MM resulta de la combinación de los dos métodos anteriores,
\({\theta ^{MM}} = \arg \mathop {\min }\limits_\theta  \sum\limits_{i = 1}^n {{\rho }({r_i}(\theta )/{\sigma ^s})} \)
en una primera parte se implementa el estimador robusto pero de baja eficiencia S y de la misma se calcula la varianza \({{\rm{\hat \sigma }}^{\rm{S}}}\), la misma que es utilizada en una segunda parte en la estimación de un modelo redescendiente M vía Mínimos Cuadrados Ponderados Iterados pero con un valor robusto como punto de inicio en las iteraciones \(\hat \theta _0^S\), con lo que se adquiere mayor estabilidad y eficiencia. En ambas etapas la función \(\rho \) es la TB y los valores \(k\) son 1,547 y 4,685 en la primera y segunda etapa, respectivamente. El algoritmo para este método puede encontrarse en Maronna et. al., 2006, sección 5.5. Para implementar el método en STATA el comando correspondiente es mmregress.

El estimador MS
Los anteriores estimadores, sin embargo, tienen problemas en sus algoritmos en presencia de variables explicativas dicotómicas. Para subsanar ello, Maronna y Yohai (2000) proponen dividir las variables explicativas en dos grupos, las de continuas y las dicotómicas, \({Y_i} = \alpha  + \beta {X_i} + \delta {D_i} + {\varepsilon _i}\) e implementar alternando un modelo M para obtener \(\delta \), asumiendo que se conoce \(\beta \) y un modelos S para estimar \(\beta \), asumiendo que se conoce \(\delta \), hasta alcanzar la convergencia. La idea es aprovechar las propiedades de ambos métodos, el modelo M es resistente a los outliers verticales, como los creados por las variables dicotómicas, y el modelo S es resistente a los outliers en Y y X pero vulnerable en su algoritmo a la presencia de dummies. El algortimo para la estimación del modelo MS se encuentra en Maronna y Yohai (2000). En STATA el comando para aplicar este estimador es msregress.

Otros estimadores robustos
En la literatura sobre Estadística Robusta existen versiones "robustas a outliers" de diferentes métodos econométricos, por ejemplo, se tiene el modelo de Variables Instrumentales Robustas de Desbordes y Verardi (2012), el modelo Logit Robusto de Croux y Haesbroeck (2003), el modelo VAR Robusto de Muler y Yohai (2013), o el modelo de Efectos Fijos Robustos con datos de panel de Verardi y Wagner (2011), etc.
Finalmente mencionar que en R el paquete "robustbase" contiene muchas de estas herramientas.

Referencias bibliográficas
-Croux, C. y Haesbroeck, G. 2003. "Implementing the Bianco and Yohai estimator for logistic regression". Computational Statistics & Data Analysis, 44, 273–295.
-Desbordes, R., y Verardi, V. 2012. "A robust instrumental-variables estimator". The Stata Journal, 12(2), 169–181.
-Fox, J., y Weisberg, S. 2013. "Robust Regression". Lecture Notes del Professor Weisberg.
-Maronna, R., y Yohai, V.J. 2000. “Robust regression with both continuous and categorical predictors” Journal of Statistical Planning and Inference, 89, 197-214.
-Maronna, R., Martin, D., y Yohai, V. 2006. "Robust Statistics: Theory and Methods". Book Series: Wiley Series in Probability and Statistics.
-Muler, N., y Yohai, V. 2013. "Robust estimation for vector autoregressive models". Computational Statistics & Data Analysis, Volume 65, 68–79.
-Salibian-Barrera, M., y Yohai, V. 2006. "A fast algorithm for S-regression estimates". Journal of Computational and Graphical Statistics 15, 414–427.
-Verardi, V. y Wagner, J. 2011. "Robust Estimation of Linear Fixed Effects Panel Data Models with an Application to the Exporter Productivity Premium". Journal of Economics and Statistics 231(4), 546-557

°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°

sábado, 23 de enero de 2016

Outliers (I): Clasificación e Identificación

En esta ocasión se desea resaltar la importancia de considerar el efecto de las observaciones atípicas (outliers) en el análisis econométrico multivariado. Identificar outliers no es fácil pero necesario, porque los mismos se camuflan en más de dos dimensiones (masking effect) y su presencia puede llevar a distorsionar los resultados de la regresión. La estructura del post es la siguiente: inicialmente se presenta la idea de cómo el análisis de regresión, ya sea aplicando Mínimos Cuadrados Ordinarios (MCO), Máxima Verosimilitud (MV) o el Método Generalizado de Momentos (MGM), es bastante vulnerable a la presencia de outliers, luego se describen los tipos de outliers y la manera “correcta” de detectarlos en STATA.

I. En el análisis de regresión el objetivo es identificar cómo una variable dependiente se encuentra relacionado con un conjunto de variables explicativas. Unos cuantos outliers fácilmente pueden distorsionar las estimaciones de una regresión obteniéndose parámetros que no reflejen la verdadera relación entre las variables. Para visualizar este efecto supongamos una muestra con sólo dos observaciones conteniendo valores atípicos, recordemos que MCO minimiza la suma del cuadrado de los residuos y que los residuos son la diferencia entre el valor observado y el valor predicho de la variable dependiente en base al comportamiento de los regresores; nótese que el par de observaciones outliers producirán un par de residuos con valores extremos. En este marco, al elevar al cuadrado estos residuos, MCO asignará mayor peso a los mismos, y estimará parámetros de interés no representativos en base a la minimización de una suma del cuadrado de los residuos inflada por un par de valores extremos. De igual manera, MV al buscar los parámetros que con mayor probabilidad han sido generados por los datos, en presencia de outliers va a maximizar una función de probabilidad conjunta distorsionada y con una distribución no-Normal; recuérdese que la función de probabilidad conjunta es la suma, en logaritmos, de las probabilidades de realización de cada residuo. Por otro lado, MGM al estimar los parámetros que cumplan con las condiciones de momentos de la muestra, en presencia de outliers va a minimizar funciones objetivo basadas en momentos muestrales distorsionados por los outliers. Gráficamente se puede visualizar el efecto mencionado para el caso de un regresor de la siguiente manera, siendo la relación entre las variables negativa, unos cuantos outliers pueden distorsionar la estimación y puede concluirse que la relación es positiva:  


II. Los outliers pueden existir por dos factores, un simple error de tipeo al introductir los datos o al codificarlos, o simplemente que la observación tiene características diferentes a la muestra. La literatura sobre Estadística Robusta sugiere tres tipos de outliers, los llamados "vertical outliers", "good leverage points" y "bad leverage points". Una descripción didáctica de los tipos de outliers, en dos dimensiones se presenta en el siguiente gráfico, el mismo corresponde a Verardi y Croux (2009). (i) Los valores extremos verticales son aquellas observaciones que están lejos de la mayor parte de los datos en la dimensión-y, es decir, son outliers en la variable dependiente pero tienen un comportamiento similar al del grupo en la dimensión-x. Estas observaciones pueden sesgar el valor del intercepto y la pendiente. (ii) Los good leverage points (puntos de influencia buenos), son observaciones que están lejos de la mayor parte de los datos en la dimensión-x , es decir son outliers en los regresores pero que no se encuentran muy lejos de la línea de regresión. Su existencia no afecta a los estimadores pero puede afectar a la inferencia e inducir a rechazarse más fácilmente la hipótesis nula de no significatividad del coeficiente estimado; en Dehon et.al. (2009) puede encontrarse un análisis más amplio de los efectos de este tipo de outlier. (iii) Por último, los bad leverage points (puntos de influencia malos) son observaciones que se encuentran lejos de la mayor parte de los datos en la dimensión-x, y a su vez se encuentran lejos de la línea de regresión. Este tipo de outlier puede sesgar fácilmente ambos coeficientes, el intercepto y la pendiente.

III. Identificar outliers multivariados no es fácil. Los outliers univariados, o valores extremos en una variable, son fácilmente identificables a través de un simple histograma. Los outliers bivariados como los presentados en el anterior gráfico también pueden ser identificados visualmente. Sin embargo, para el caso de más de dos variables, puede suceder que una observación no sea outlier en dos dimensiones pero si en tres o cuatro, lo que ya no es visible fácilmente. Un estimador común para detectar valores extremos multivariados es la Distancia de Mahalanobis (DM), \(D{M_i} = \sqrt {({X_i} - \mu ){\Sigma ^{ - 1}}({X_i} - \mu )} \), donde \(\mu \) es el llamado vector de ubicación (location vector) que no es más que el vector de medias de las variables, \({{\Sigma ^{ - 1}}}\) es la matriz de covarianzas y \({{X_i}}\) es la fila i de la matriz de observaciones \(X\). Las DM miden la distancia de las observaciones respecto al centro de los datos (\(\mu \)) considerando la forma de los mismos (\(\Sigma \)); así las observaciones con valores de DM extremos pueden ser considerados outliers multivariados (nótese que \(MD \sim \chi _{\# {\mathop{\rm var}} iables}^2\)). El problema con esta medida, denominado el "masking effect", es que \(\mu \) y \(\Sigma \) a su vez pueden ser distorsionados por los outliers, haciendo de MD una medida no representativa de la mayoría de los datos. En la literatura sobre Estadística Robusta muchos estimadores robustos de \(\mu \) y \(\Sigma \) han sido propuestos. Dos de ellos, muy útiles y puestos a disposición de los econometristas en STATA gracias a los trabajos de Verardi y Dehon (2010) y Verardi y McCathie (2012) son el Determinante de Covarianza Mínima (Minimum Covariance Determinant, MCD) y el estimador S de ubicación y dispersión multivariada (S-estimator of location and scatter); los comandos en STATA son mcd y smultiv, respectivamente. Para mayor detalle sobre los algoritmos de estos estimadores, que por cierto son computacionalmente intensivos, se puede revisar los dos trabajos citados anteriormente. Les aconsejo el smultiv ya que es más estable. Con la información otorgada por estos comandos se puede clasificar a los outliers graficando los residuos estandarizados y las DM, ambas robustas, siguiendo el enfoque de Rousseeuw y van Zomeren (1990); en un futuro post se pondrá a disposición un código en STATA para obtener tal gráfico.
Es necesario también mencionar que cualquier medida para detectar outliers basados en los residuos, como los residuos estandarizados, las distancias de Cook, las medidas de apalancamiento, etc., sufren del problema "masking effect", es decir están basados en residuos provenientes de coeficientes yá distorsionados por los outliers, por lo que pueden proveer información errónea. 
Finalmente mencionar que una vez detectados los outliers, con mcd o smultiv, se los puede excluir del análisis de regresión o se los puede dar menor peso en la estimación. Otra estrategia para lidiar con las distorsiones creadas por observaciones atípicas es utilizar métodos de regresión robustos a outliers, tema pendiente para siguientes posts.  

Referencias

- Dehon, C., Gassner, M., y Verardi, V. (2009). Beware of good leverage points, Oxford Bulletin of economics and statistics, 71,3.
- Rousseeuw, P., y van Zomeren, B. (1990). Unmasking multivariate outliers and leverage points. Journal of the American Statistical Association, 85,141.
- Verardi, V., y Croux, C. (2009). Robust Regresion in Stata. Stata Journal, 9,3.
- Verardi, V., y Dehon, C. (2010). Multivariate outlier detection in Stata. Stata Journal, 10,2.
- Verardi, V., y McCathie, A. (2012). The S-estimator of multivariate location and scatter in Stata. Stata Journal, 12,2.


°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°

lunes, 28 de diciembre de 2015

Identificación a travéz de la heteroscedasticidad

En econometría, cuando el supuesto de exogeneidad de los regresores se rompe, los coeficientes estimados no gozan de las propiedades de insesgabilidad y consistencia. Son tres las posibles causas para que este supuesto no se cumpla, ipso facto se tengan regresores endógenos: simultaneidad, heterogeneidad no observada y errores de medida en los regresores. En estos casos, el recurso común existente para lidiar con el problema de endogeneidad es la estimación por el método de Variables Instrumentales y la consiguiente identificación de los parámetros basándose en restricciones de exclusión. Es decir, el uso de regresores (instrumentos) que estén altamente correlacionados con la variable explicativa endógena (relevantes) y que no expliquen directamente a la variable dependiente (válidos), esta última es la restricción de exclusión. Sin embargo, en la práctica, muchas veces es muy difícil obtener instrumentos que apropriadamente satisfagan ambas condiciones, limitando la aplicabilidad de este método y haciendo varios proyectos empíricos inviables.
Recientemente han surgido métodos de identificación alternativos para lidiar con el problema de endogeneidad que no se basan en la restricción de exclusión de los regresores, es decir que no dependen de la existencia de instrumentos externos apropiados. En esta nota describo brevemente estas estrategias de identificación para datos de corte transversal. Las mismas son alternativas bastante interesantes y pueden ser aplicadas en trabajos empíricos bajo las condiciones que se explican a continuación. Espero les sea útil.


Considérese el siguiente sistema:
\[\begin{array}{l}{y_2} = {y_1}{\beta _2} + X{\gamma _2} + {\varepsilon _2}\\{y_1} = {y_2}{\beta _1} + X{\gamma _1} + Z{\alpha _1} + {\varepsilon _1}\end{array}\]
Donde \({y_2}\) es la variable dependiente y \({y_1}\) es la variable explicativa endógena. Este sistema de dependencia simultánea será triangular si \({\beta _1} = 0\), que corresponde a la situación que se considera en este post. \(Z\) incluye el set de instrumentos que para el presente caso se supone que no son disponibles, es decir  \({\alpha _1} = 0\). Los errores \({\varepsilon _2}\) y \({\varepsilon _1}\) están correlacionados lo que hace del estimador Mínimos Cuadrados Ordinarios sesgado e inconsistente por la endogeneidad.

En este marco, Lewbel (2012) demuestra que los parametros del anterior sistema pueden ser identificados bajo los siguientes supuestos: \(E({X_i},{\varepsilon _{2i}}{\rm{) = 0}}\), \(E({X_i},{\varepsilon _{1i}}{\rm{) = 0}}\), \(Cov({X_i},{\varepsilon _{1i}}{\varepsilon _{2i}}{\rm{) = 0}}\), y \(Cov({X_i},\varepsilon _{1i}^2{\rm{)}} \ne {\rm{0}}\). Es decir que \(({X_i} - \bar X){\varepsilon _{1i}}\) puede usarse como un set de instrumentos internos. Nótese que los primeros dos supuestos simplemente implican la exogeneidad de los regresores, el tercer supuesto sugiere que \(({X_i} - \bar X){\varepsilon _{1i}}\) es un set de instrumentos válidos ya que no están correlacionados con los errores de la segunda etapa, y el cuarto supuesto insinúa que los errores de la primera etapa son heteroscedásticos en términos de \(X\), este supuesto tambien puede entenderse como la condición de relevancia de estos instrumentos generados, la misma que dependerá de la covarianza de los mismos con \({\varepsilon _1}\) (los errorres heteroscedásticos de la variable explicativa endógena).
Es decir, para la identificación sólo son necesarios regresores que sean independientes del producto de los errores heteroscedásticos. Otra característica de este enfoque es que puede extenderse fácilmente para el caso de dos o más regresores endógenos, así también la estimación puede efectuarse por Mínimos Cuadrados Ordinarios o el Método Generalizado de Momentos, y los códigos para su implementación están escritos en STATA (ivreg2h) y en R (ivlewbel).

Por otro lado, Klein y Vella (2010) proponen utilizar el enfoque de funciones de control para lidiar con la endogeneidad. Inicialmente, tal vez es prudente recordar la manera en la que la estimación de Variables Instrumentales por medio de Mínimos Cuadrados en dos Etapas (MC2E) pertenece al grupo de estimadores del enfoque de funciones de control: los residuos de la regresión de la variable explicativa endógena con los instrumentos y el set de regresores exógenos (de la primera etapa) son incluidos en la ecuación estructural (la segunda etapa) con el objeto de "controlar" o remover el componente de \({\varepsilon _2}\) que se encuentra correlacionado con \({\varepsilon _1}\), y obtener así estimaciones consistentes de \({\beta _2}\).
En este marco, Klein y Vella (2010) sugieren utilizar la siguiente función de control en reemplazo de los residuos de la primera etapa producto de la ausencia de instrumentos aprpiados: \(A(X) = {\rho _0}\frac{{{S_{\varepsilon 1}}(X)}}{{{S_{\varepsilon 2}}(X)}}{\varepsilon _1}\). Es decir, sugieren estimar:  
\[{y_2} = {y_1}{\beta _2} + X{\gamma _2} + {\rho _0}\frac{{{S_{\varepsilon 1}}(X)}}{{{S_{\varepsilon 2}}(X)}}{\varepsilon _1} + u\]
Donde: \(u = {\varepsilon _2} - A(X){\varepsilon _1}\), asimismo \({{S_{\varepsilon 1}}(X)}\) y \({{S_{\varepsilon 2}}(X)}\) representan las funciones de varianza condicional para los errores de la primera y segunda etapa, respectivamente, las mismas que se estiman de manera no paramétrica. Para identificar el modelo, Klein y Vella (2010) asumen (i) la presencia de heteroscedasticidad multiplicativa en los términos de error: \({\varepsilon _1} = {S_{\varepsilon 1}}(X)\varepsilon _1^{**}\) y \({\varepsilon _2} = {S_{\varepsilon 2}}(X)\varepsilon _2^{**}\), donde \(\varepsilon _1^{**}\) y \(\varepsilon _2^{**}\) son los términos de error homoscedásticos; y que (ii) el coeficiente de correlación condicional entre los errores homoscedásticos \({\rho _0} = Corr(\varepsilon _1^{**},\varepsilon _2^{**})\), es constante. Como \(A(X)\) es una función no lineal de de \(X\), esta no linealidad es utilizada como una fuente de identificación. Así, la identificación requiere la existencia de heteroscedasticidad en los errores y en especial que la forma de la misma sea diferente en la primera y segunda etapa, es decir que el ratio \(\frac{{{S_{\varepsilon 1}}(X)}}{{{S_{\varepsilon 2}}(X)}}\) no sea constante. 
Los códigos para la implementación de este método están escritos en STATA (kvreg).

Finalmente mencionar que probablemente debido a  a la facilidad de su aplicación y a que la heteroscedasticidad es una característica general de los datos, ambas estrategias han sido aplicadas en varias publicaciones académicas, generalmente como robustness check o para conseguir modelos sobre identificados, lo que refleja la utilidad y aceptación de los mismos en la literatura

Referencias
Klein, R., Vella. F., 2010. Estimating a class of triangular simultaneous equations models without exclusion restrictions. Journal of Econometrics 154, 154-164
Lewbel, A., 2012. Using Heteroscedasticity to Identify and Estimate Mismeasured and Endogenous Regressor Models, Journal of Business and Economic Statistics 30, 67-80

°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°

lunes, 14 de diciembre de 2015

Por qué la mayoría de los resultados publicados sobre Raíz Unitaria y Cointegración son falsos

Este es el título de uno de los artículos más visitados en SSRN en el mes de octubre [link]. Escrito por Luiter y Mahal (2015) de la universidad canadiense de Algoma, el trabajo sostiene que la siguiente proposición planteada por Granger(1981), no se cumple en la realidad: si \({x_t} \sim I({d_x}), {y_t} \sim I({d_y})\), entonces \({z_t} = b{x_t} + c{y_t} \sim I(\max ({d_x},{d_y}))\). Es decir, que la suma o diferencia de dos series de diferente orden de integración, tendrá como resultado una serie cuyo orden de integración es el mayor de entre las dos series. Hecho que los autores entienden como un factor que invalidaría los análisis de raíz unitaria y cointegración.  

Como habrá percibido el lector, el título del trabajo es bastante interesante y sus conclusiones son sugestivas. No obstante, el contenido del documento resulta muy poco convincente como para tomar en cuenta las aseveraciones escritas a lo largo del mismo. El motivo es, por un lado falta de comprensión, ya que los autores se enfocan en una proposición que es verdadera, en general, como lo menciona el mismo Granger (1981), siendo la cointegración un caso especial en el que la proposición no se cumple. En otras palabras, la proposición dice que una combinación lineal de dos series no estacionarias dará como resultado necesariamente una serie no estacionaria, en general. Aunque, existe la posibilidad de que la mencionada combinación lineal sea estacionaria, \(I({d_z}) < I({d_x},{d_y})\), es decir sea cointegrada. Nótese que en este trabajo, el de 1981, el profesor Granger introduce formalmente en la literatura el término cointegración (Clive Granger recibió el premio nobel de economía en 2003 por desarrollar métodos para el análisis de series de tiempo cointegradas).
Por otro lado, los autores consideran una evidencia empírica como prueba suficiente para refutar o invalidar una propiedad teórica de los tests de cointegración. Ahí está el segundo problema, ya que obviamente muchos otros factores pueden explicar los resultados empíricos del artículo, ya sea la frecuencia de los datos, la muestra, la presencia de estacionalidad, de cambios estructurales, la especificación,......, etc. Así, concluir directamente que un particular caso empírico es una prueba de la invalidez de los tests de cointegración resulta precipitado.
Para responder a la interesante pregunta planteada en el título, inicialmente debería haberse planteado una hipótesis, una causa o escenario que haga "falsos" los tests de raíz unitaria y cointegración. Matemáticamente debería demostrarse que las propiedades teóricas "A" y "B" de estos tests no se cumplen bajo las condiciones planteadas en la hipótesis. Este análisis debería estar apoyado por simulaciones y/o por una mayor evidencia empírica, considerando otras variables y otras muestras, donde se evidencie, nuevamente, que las propiedades teóricas "A" y "B" de estos tests no se cumplen bajo las condiciones planteadas en la hipótesis.
Estos autores están haciéndose famosos, aunque no en el sentido que esperaban [link].

Dado el tema, se puede señalar algunos factores que invalidan las propiedades de los estadísticos de raíz unitaria y de cointegración, por ejemplo Perron (1989) mostró que en caso de su existencia y omisión en el análisis, los quiebres estructurales pueden conducir a un sesgo que reduce la capacidad de rechazar la hipótesis nula de raíz unitaria. Así también, cuando las variables objeto de análisis no son exactamente I(1), es decir poseen más de una raíz o son casi raíz unitaria, los tests de raíz unitaria incorrectamente las identificaran como raíces unitarias (Smallwood y Norrbin, 2004), de igual manera los tests de cointegración las definirán como cointegradas aún cuando éstas no se encuentren correlacionadas (Hjalmarsson y Österholm, 2010). Otro escenario se da cuando existen raíces unitarias en otras frecuencias diferentes a cero, raíces unitarias estacionales, en este caso el test de raíz unitaria de Dickey Fuller sufre distorsiones en su tamaño (Ghysel et.al., 1994).

Finalmente, mencionar que cualquier método o técnica en econometría se basa en supuestos, ciertas condiciones que deben ser satisfechas. Si las mismas no lo son, entonces los resultados empíricos no tendrán las propiedades deseadas, pero no es al revés, es decir "un" resultado empírico no puede invalidar una técnica econométrica.

Referencias

-Granger, C.W.J., 1981. Some properties of time series data and their use in econometric model specification. Journal of econometrics, 16:121:130.
-Luitel, Hari S. y Mahar, Gerry J., 2015. Why Most Published Results on Unit Root and Cointegration are False.
-Perron, P., 1989. The great crash, the oil price shock, and the unit root hypothesis. Econometrica, 57:.1361-1401.
-Smallwood, Aaron D., y Norrbin, Stefan C., 2004. Estimating cointegrating vectors using near unit root variables, Applied Economics Letters, 11:12, 781-784
-Hjalmarsson Erik y Österholm, Pär, 2010. Testing for cointegration using the Johansen methodology when variables are near-integrated: size distortions and partial remedies. Empirical Economics, 39:51–76
-Ghysels, E., Lee, H. S., y J. Noh., 1994. Testing for unit roots in seasonal time series: Some theoretical extensions and a Monte Carlo investigation. Journal of Econometrics, 62: 415–442.


°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°

domingo, 18 de octubre de 2015

Presentación

Bienvenidos a mi blog, me llamo Darwin Ugarte Ontiveros en este espacio encontrarán información sobre temas relacionados con la Econometría, así también algunos de mis trabajos sobre la Economía Boliviana.