Variables explicativas al estimar impactos

Introducción

Contenidos

La asignación aleatoria a los grupos de tratamiento y control permite obtener grupos que sean estadísticamente iguales tanto en sus características observables como inobservables. De esta manera, la única diferencia entre los grupos es el tratamiento, lo que permite identificar su efecto causal sobre las variables de resultado. En otras palabras, se logra validez interna.

Si los grupos son iguales en todo excepto en el tratamiento, entonces, ¿se debe utilizar variables explicativas (controles) al estimar el impacto del tratamiento?

¿Es necesario usar variables explicativas?

No. Ya que, como se expuso anteriormente, los grupos son iguales en sus características observables e inobservables. Por lo tanto, si la aleatorización fue exitosa, no debería ser necesario controlar por otras variables.

Sin embargo, es posible que debido a una aleatorización incorrecta, o simplemente debido al azar, la asignación aleatoria resulte en grupos que son totalmente comparables, es decir, que se diferencian en al menos una o más variables. Esto es más probable cuando el tamaño muestral es pequeño. En estos casos, si las diferencias son pocas y bajas en magnitud, se pueden ignorar, pero de todas formas se justifica controlar por aquellas variables, para demostrar que los resultados son robustos (sobre todo cuando se trate de variables que puedan influir en la variable de resultado).

¿Por qué otras razones puede ser bueno controlar por otras variables?

Incluir controles en la regresión puede permitir hacer estimaciones más precisas del impacto de un programa. Cuando se incluyen variables explicativas que ayudan a predecir la variable de resultado, se reduce la varianza no explicada, lo que reduce el error y la incertidumbre relacionada con la estimación. Así se hace más precisa la estimación, es decir, aumenta el poder estadístico.

Si se han elegido adecuadamente los controles, la precisión del impacto estimada aumentará. Sin embargo, en la mayoría de los casos la magnitud del efecto no debería cambiar mucho. Por otro lado, cuando los controles no contribuyen a predecir la variable de resultado, la precisión de la estimación empeorará, y se reducirán los grados de libertad.

Por lo general, el nivel de línea de base de la variable de resultado es la covariable que resulta más útil incluir. Por ejemplo, si se mide el impacto de un programa en las notas de los estudiantes, las notas de los mismos estudiantes antes de implementar el programa es una buena variable de control, ya que dichas notas deberían estar correlacionadas con las notas ex post.

¿Qué tipo de variables de control usar?

Si se usan controles se deben portar por variables definidas antes del inicio del experimento (el momento en que ocurre la aleatorización), como el género o la raza, y que, por lo tanto, no son afectadas por el programa.

Las variables de control se miden antes del inicio del experimento, por ejemplo, mediante una encuesta de línea de base. Si no es así, los datos de covariables se pueden medir después, pero se deben considerar sólo variables que se sabe que no hayan cambiado debido al tratamiento, por ejemplo, el género o raza.

Otras consideraciones

Es una práctica común informar del impacto estimado del programa tanto con como sin covariables, para mostrar si el impacto estimado es sensible a enfoques ligeramente diferentes. Es decir, que la estimación es robusta.

Considerar no añadir de covariables muy correlacionadas, ya que la colinealidad disminuye la precisión de las estimaciones.

Si se hace un muestreo aleatorio estratificado, es una buena práctica mostrar resultados donde se haya controlado por las dummies de estratos, ya que la estratificación, dependiendo de cómo se haya realizado, puede haber hecho que la probabilidad de que cada individuo haya sido asignado a cada grupo no sea la misma. Por ejemplo, cuando en la población hay más mujeres que hombres, pero en la muestra hay tantos hombres como mujeres. En este caso, los hombres tuvieron una mayor probabilidad de haber sido elegidos.

Los regresores deben ser definidos ex ante, para evitar el data mining, es decir, la búsqueda de distintas formas de hacer estimaciones de los impactos hasta encontrar los resultados deseados.

Bibliografía

Duflo, E., Glennerster, R. & Kremer, M. (2008), Using Randomization in Development Economics Research: A Toolkit, ch. 61, p. 3895-3962 in Schultz, T. Paul and Strauss, John A. eds., Elsevier.

Glennerster, R., & Takavarasha, K. (2013). Running Randomized Evaluations: A Practical Guide. Princeton University Press. https://doi.org/10.2307/j.ctt4cgd52