En econometría, cuando el
supuesto de exogeneidad de los regresores se rompe, los coeficientes estimados
no gozan de las propiedades de insesgabilidad y consistencia. Son tres las
posibles causas para que este supuesto no se cumpla, ipso facto se tengan regresores
endógenos: simultaneidad, heterogeneidad no observada y errores de medida en
los regresores. En estos casos, el recurso común existente para lidiar con el problema de
endogeneidad es la estimación por el método de Variables Instrumentales y la
consiguiente identificación de los parámetros basándose en restricciones de
exclusión. Es decir, el uso de regresores (instrumentos) que estén
altamente correlacionados con la variable explicativa endógena (relevantes) y
que no expliquen directamente a la variable dependiente (válidos), esta última es
la restricción de exclusión. Sin embargo, en la práctica, muchas veces es muy difícil obtener
instrumentos que apropriadamente satisfagan ambas condiciones, limitando la aplicabilidad de este método y haciendo varios
proyectos empíricos inviables.
Recientemente han surgido métodos de identificación alternativos para lidiar con el problema de
endogeneidad que no se basan en la restricción de exclusión de los regresores,
es decir que no dependen de la existencia de instrumentos externos apropiados. En esta nota describo brevemente estas estrategias de identificación para datos de
corte transversal. Las mismas son alternativas bastante interesantes y pueden ser aplicadas en trabajos empíricos bajo las condiciones que se explican a continuación. Espero les sea útil.
Considérese el siguiente sistema:
y2=y1β2+Xγ2+ε2y1=y2β1+Xγ1+Zα1+ε1
Donde y2 es la variable dependiente y y1 es la variable explicativa endógena. Este sistema de dependencia simultánea será triangular si β1=0, que corresponde a la situación que se considera en este post. Z incluye el set de instrumentos que para el presente caso se supone que no son disponibles, es decir α1=0. Los errores ε2 y ε1 están correlacionados lo que hace del estimador Mínimos Cuadrados Ordinarios sesgado e inconsistente por la endogeneidad.
En este marco, Lewbel (2012) demuestra que los parametros del anterior sistema pueden ser identificados bajo los siguientes supuestos: E(Xi,ε2i)=0, E(Xi,ε1i)=0, Cov(Xi,ε1iε2i)=0, y Cov(Xi,ε21i)≠0. Es decir que (Xi−ˉX)ε1i puede usarse como un set de
instrumentos internos. Nótese que los primeros dos supuestos simplemente implican la exogeneidad de los regresores, el tercer supuesto sugiere que (Xi−ˉX)ε1i es un set de instrumentos válidos ya que no están correlacionados con los errores de la segunda etapa, y el cuarto supuesto insinúa que los errores de la primera etapa son heteroscedásticos en términos de X, este supuesto tambien puede entenderse como la condición de relevancia de estos instrumentos generados, la misma que dependerá de la covarianza de los mismos con ε1 (los errorres heteroscedásticos de la variable explicativa endógena).
Es decir, para la identificación sólo son necesarios regresores que sean independientes del producto de los errores heteroscedásticos. Otra característica de este enfoque es que puede extenderse fácilmente para el caso de dos o más regresores endógenos, así también la estimación puede efectuarse por Mínimos Cuadrados Ordinarios o el Método Generalizado de Momentos, y los códigos para su implementación están escritos en STATA (ivreg2h) y en R (ivlewbel).
Por otro lado, Klein y Vella (2010) proponen utilizar el enfoque de funciones de control para lidiar con la endogeneidad. Inicialmente, tal vez es prudente recordar la manera en la que la estimación de Variables Instrumentales por medio de Mínimos Cuadrados en dos Etapas (MC2E) pertenece al grupo de estimadores del enfoque de funciones de control: los residuos de la regresión de la variable explicativa endógena con los instrumentos y el set de regresores exógenos (de la primera etapa) son incluidos en la ecuación estructural (la segunda etapa) con el objeto de "controlar" o remover el componente de ε2 que se encuentra correlacionado con ε1, y obtener así estimaciones consistentes de β2.
En este marco, Klein y Vella (2010) sugieren utilizar la siguiente función de control en reemplazo de los residuos de la primera etapa producto de la ausencia de instrumentos aprpiados: A(X)=ρ0Sε1(X)Sε2(X)ε1. Es decir, sugieren estimar:
y2=y1β2+Xγ2+ρ0Sε1(X)Sε2(X)ε1+u
Donde: u=ε2−A(X)ε1, asimismo Sε1(X) y Sε2(X) representan las funciones de varianza condicional para los errores de la primera y segunda etapa, respectivamente, las mismas que se estiman de manera no paramétrica. Para identificar el modelo, Klein y Vella (2010) asumen (i) la presencia de heteroscedasticidad multiplicativa en los términos de error: ε1=Sε1(X)ε∗∗1 y ε2=Sε2(X)ε∗∗2, donde ε∗∗1 y ε∗∗2 son los términos de error homoscedásticos; y que (ii) el coeficiente de correlación condicional entre los errores homoscedásticos ρ0=Corr(ε∗∗1,ε∗∗2), es constante. Como A(X) es una función no lineal de de X, esta no linealidad es utilizada como una fuente de identificación. Así, la identificación requiere la existencia de heteroscedasticidad en los errores y en especial que la forma de la misma sea diferente en la primera y segunda etapa, es decir que el ratio Sε1(X)Sε2(X) no sea constante.
Los códigos para la implementación de este método están escritos en STATA (kvreg).
Los códigos para la implementación de este método están escritos en STATA (kvreg).
Finalmente mencionar que probablemente debido a a la facilidad de su aplicación y a que la heteroscedasticidad es una característica general de los datos, ambas estrategias han sido aplicadas en varias publicaciones académicas, generalmente como robustness check o para conseguir modelos sobre identificados, lo que refleja la utilidad y aceptación de los mismos en la literatura.
Klein, R., Vella. F., 2010. Estimating a class of triangular simultaneous equations models without exclusion restrictions. Journal of Econometrics 154, 154-164
Lewbel, A., 2012. Using Heteroscedasticity to Identify and Estimate Mismeasured and Endogenous Regressor Models, Journal of Business and Economic Statistics 30, 67-80
°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°