Cuándo y cómo estimar efectos heterogéneos

Introducción

En este artículo se trata el tema de la estimación de efectos heterogéneos tras una evaluación de impacto, es decir, la estimación del impacto del programa en subgrupos de la población. Se responde preguntas como: ¿Cuándo estimar estos efectos? ¿Cómo hacerlo? ¿Cuáles son las ventajas y desventajas de hacerlo?

¿Qué son los efectos heterogéneos?

Se dice que hay efectos heterogéneos cuando los efectos del programa son diferentes para distintos subgrupos en una población. Por ejemplo, entregar libros de texto puede ser efectivo sólo para los niños con un nivel de lectura avanzado, que les permita entender y aprovechar los libros.

Un subgrupo es cualquier grupo de individuos en una muestra con al menos una característica en común. Por ejemplo, el género o el nivel de escolaridad. El grupo debe compartir una característica observable, que fue determinada antes de que se realizada el experimento. Si no es así, si, por el contrario, se usa una variable de resultado (medida ex post) como criterio para definir los grupos, se estaría introduciendo sesgo en la estimación (por endogeneidad, ya que dicha variable se determinó en conjunto con la variable de resultado principal).

¿Por qué analizar la heterogeneidad de los resultados?

Evaluar el impacto de un programa en diferentes subgrupos puede ayudar a entender la forma en que se debe orientar efectivamente el programa en el futuro. Además, el análisis de heterogeneidad puede ayudar a entender los mecanismos mediante los cuales operó el programa.

En el ejemplo de los libros, descubrir que la intervención ayuda sólo a los alumnos con alto nivel de lectura permitió concluir que el programa no era adecuado para la mayoría de los alumnos.

¿Cómo hacer el análisis de heterogeneidad?

La forma más directa de estimar un efecto heterogéneo consiste en dividir la muestra en subgrupos, para luego estimar el impacto del programa sobre el subgrupo de interés, omitiendo a todos los individuos que no pertenecen al subgrupo.

Por ejemplo, si interesa el impacto del programa sobre las niñas, se excluyen todos los niños de la base de datos, y se estima el impacto del programa en la submuestra de igual manera que se hizo para toda la muestra. Notar que de esta manera se tienen sólo niñas, donde algunas pertenecen al grupo tratamiento y otras al grupo control.

Mientras el subgrupo se defina utilizando características que se detectaron antes de empezar el programa (o que se sepa que no cambian con el programa, como el género), no se introducirá ningún sesgo en la selección. En el ejemplo, esto implica que las niñas tratadas y no tratadas deberían ser iguales en promedio, tanto en características observables como inobservables, y que sólo deberían diferenciarse en haber recibido o no el tratamiento (así se mantiene la validez interna de la evaluación).

Bajo poder en el análisis de los subgrupos

Dado que al dividir la muestra en subgrupos obtenemos submuestras de menor tamaño, el poder estadístico disminuye, por lo que el efecto mínimo detectable aumenta. No podremos detectar efectos muy pequeños.

Además, será más difícil comparar los tamaños relativos del efecto sobre diferentes subgrupos, es decir, será más difícil determinar si el tamaño del efecto en un subgrupo es mayor o menor que en otro subgrupo, ya que las estimaciones se hacen más imprecisas (al disminuir el tamaño muestral aumentan los errores estándar). Por ejemplo, será difícil decir si el efecto del programa en las niñas es mayor que el efecto en los niños.

Hay que tener en cuenta que, encontrar que el efecto de un programa es significativo en un grupo, pero no en otro, no significa que el programa sea más efectivo en un grupo que en el otro. Para averiguarlo hay que hacer un test estadístico. Otra forma de determinar si hay diferencia es verificar si hay traslape en los intervalos de confianza. Los intervalos podrían estar traslapados, y sólo uno de ellos contener el cero.

Para probar si el efecto de un programa es el mismo para dos subgrupos diferentes, usando una regresión, se puede usar el siguiente procedimiento: (1) Crear una variable dummy para el tratamiento de cada subgrupo, por ejemplo, T_girls y T_boys, y una dummy para las niñas en general, D_girls; (2) Luego, se estima el efecto de los dos grupos de tratamiento: y = c + B1 * T_girls + B2 * T_boys + B3 * D_girls + e; por último, se testea la siguiente hipótesis nula: B1 = B2

¿Cuándo usar términos de interacción?

Usar términos de interacción es otra forma de comprobar si el programa tiene efectos heterogéneos. A continuación se explica cuándo es conveniente estimar los efectos heterogéneos de esta forma.

El análisis de heterogeneidad es útil sobre todo cuando los diferentes tipos de individuos están en subgrupos definidos por categorías claras, por ejemplo: hombre-mujer. En otras palabras, cuando los subgrupos están definidos por variables categóricas, donde las categorías son “naturales”, cuando existen per se.

Sin embargo, es posible que existan efectos heterogéneos que dependan de una variable continua, como los ingresos o la edad. En estos casos es posible crear categorías, como rico-pobre, viejo-joven, etc. Sin embargo, los umbrales deben estar bien justificados, y, además, hay que tener en cuenta que es posible que el efecto del programa cambie gradualmente en correspondencia con la variable continua, por lo que, en casos así, el umbral que define las categorías no es claro.

Los términos de interacción se pueden usar para modelar el caso anterior (efecto que cambia gradualmente con una variable continua). Se estima una regresión como la siguiente:

Y = c + B1 * T + B2 * AT + B3 * A + e

Donde A es la edad del individuo cuando el programa empezó, T es la variable indicativa del tratamiento, y AT es un término de interacción creado mediante la multiplicación A*T. Siempre que se incluya un término de interacción (AT) también deben incluirse los componentes de la interacción (A y T).

En el ejemplo, el coeficiente B2 indica si el efecto del tratamiento varía con la edad. Si B2 = 0, el programa no varía con la edad.

Tener en cuenta que, al calcular el impacto promedio del programa no se deben incluir términos de interacción, ya que el impacto general se distribuye a través de B1 y B2. Alternativamente, se puede sumar B2 * promedio(A) a B1 para obtener el efecto promedio de T.

Asignación aleatoria estratificada

A veces se opta por hacer una asignación aleatoria estratificada a los grupos de tratamiento y control, ya que esto reduce la varianza de la estimación y mejora la comparabilidad de los grupos. Otra importante razón para estratificar es la estimación del efecto del programa en subgrupos: el análisis de heterogeneidad. En este caso, los subgrupos son los estratos, que se han definido previamente (como debería ser, y como se explica en la siguiente sección).

¿Cuándo planificar el análisis? ¿Cómo evitar malas prácticas?

Los investigadores pueden estar tentados a seleccionar los subgrupos ex post, eligiendo aquellos donde se encuentren efectos heterogéneos. En otras palabras, pueden estimar efectos heterogéneos para una gran cantidad de subgrupos, y reportar aquellos resultados que sea significativos. No obstante, esto implica hacer “cherry-picking” entre los resultados (esta mala práctica también se podría denominar p-hacking, data mining, data dredging, data snooping, HARking, etc.). Por ello, el análisis de heterogeneidad se debe planificar ex ante, durante el diseño de la investigación, de forma de limitar esta discrecionalidad.

Por esta razón, por la posibilidad del cherry-picking de un resultado particular, de variables de resultado o subgrupos, donde la evaluación concluye que el programa es efectivo, se considera una amenaza de generar sesgo de publicación en las evaluaciones aleatorias (es más probable que se publiquen estudios que encuentran resultados significativos que aquellos que no encuentran estos resultados). En consecuencia, organismos como la FDA no consideran los resultados de los análisis de subgrupos en los experimentos médicos que buscan validar la eficacia de un medicamento. 

Por otro lado, a veces sucede que se descubre un efecto heterogéneo genuinamente importante ex post, sin haberlo planificado con antelación. ¿Se debería incluir este resultado en un reporte? Los investigadores más rigurosos dirían que dividir la muestra según una variable que no fue parte del diseño aleatorio original es cherry-picking. De hecho, el estándar más riguroso, el de la FDA, señala que a menos que los subgrupos se especifiquen ex ante, los resultados para subgrupos no deberían ser considerados como evidencia para permitir el uso de un medicamento. La FDA exige un nuevo experimento diseñado ex ante para medir el impacto en dichos subgrupos. La razón es que si un investigador tiene libre albedrio para examinar un número arbitrario de subgrupos, será posible reportar los resultados para subgrupos donde la intervención parezca más efectiva.

Si, de todas formas, un investigador quiere reportar el resultado de un análisis que no fue previamente propuesto en el diseño metodológico del estudio, debe señalar claramente cómo distinguir entre resultados planificados y no planificados, de forma que el lector pueda discriminar y decidir qué resultados considerar como válidos.

¿Puede haber sesgo en el análisis de heterogeneidad?

Sí, cuando la variable que define los subgrupos no es apropiada, por ejemplo, cuando ésta covaría con otras variables, no consideradas en la estimación, que son la verdadera fuente del efecto heterogéneo. En este caso, se produce confounding, no en el sentido de una falla en el supuesto de independencia condicional, sino porque la variable que define al subgrupo estaría siendo simplemente una variable proxy de la verdadera fuente del efecto heterogéneo.

Por ejemplo, un estudio encontró efectos heterogéneos por sexo: el efecto era mayor en los hombres. sin embargo, el sexo no causaba las diferencias en los impactos, sino que la causa era las diferencias de fuerza física, que se correlacionan con el sexo.

¿Cuántos subgrupos analizar? ¿Es mejor tener muchos o pocos subgrupos?

Es problemático tener muchas métricas de resultado, modalidades de tratamiento, o muchos subgrupos, debido a que esto puede tentar a los investigadores a hacer cherry-picking, es decir, mostrar sólo los resultados cuyos efectos sean significativos. Además, aun cuando lo anterior no suceda, hacer muchas estimaciones implica realizar muchas pruebas de hipótesis. Por ejemplo, un estudio que tiene 10 medidas de resultado, 4 tratamientos y 10 subgrupos diferentes estaría probando 400 hipótesis diferentes, una para cada coeficiente estimado (sin considerar las hipótesis de comparación entre coeficientes). Es muy posible que al menos algunas de estas pruebas tengan resultados significativos simplemente por azar.

Las pruebas de hipótesis estándar asumen que el investigador se interesa en cada resultado de forma independiente, por lo que, cuando se testean muchas hipótesis, la probabilidad efectiva de rechazar una hipótesis nula verdadera es mayor que el nivel de significancia usado en cada test individual. Para hacer una inferencia correcta, los errores estándar se deben ajustar para tomar en cuenta el hecho de que el resultado es parte de una familia de hipótesis (familywise error). El método que recomiendo para hacer esta corrección es el de Benjamini y Hochberg (1995).

Referencias

Benjamini Y, Hochberg Y (1995). Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society, Series B. 57 (1): 289–300. MR 1325392

Duflo, E., Glennerster, R. & Kremer, M. (2008), Using Randomization in Development Economics Research: A Toolkit, ch. 61, p. 3895-3962 in Schultz, T. Paul and Strauss, John A. eds., Elsevier.

Glennerster, R., & Takavarasha, K. (2013). Running Randomized Evaluations: A Practical Guide. Princeton University Press. https://doi.org/10.2307/j.ctt4cgd52

Contenidos relacionados