Múltiples variables de resultado en evaluaciones de impacto

Introducción

Contenidos

Un programa puede tener efecto en más de un resultado. Por ejemplo, un programa de desparasitación de niños escolares puede afectar tanto su salud como su desempeño escolar. Por otro lado, puede suceder que algunos resultados pueden ser medidos por más de un indicador. Por ejemplo, el efecto de un programa que buscar dar poder de decisión a las mujeres dentro del hogar se puede medir en múltiples decisiones dentro de un hogar (consumo, inversión, etc.).

¿Por qué usar múltiples variables de resultados puede ser problemático?

Usar múltiples variables de resultados puede ser problemático, ya que las pruebas estadísticas estándar (al hacer inferencia) asumen que el investigador está interesado en cada resultado por separado. Pero, si se están comprobando muchos resultados, la probabilidad de encontrar un resultado falso negativo (rechazar una hipótesis nula cuando es verdadera) por lo menos para uno de estos resultados, es mayor que el nivel de significancia de cada prueba.

Por ejemplo, un investigador que está probando 10 hipótesis independientes a un 5% de significancia, rechazará, simplemente por casualidad (por azar), la hipótesis nula por lo menos para una de ellas con una probabilidad de 40%.

Este problema también puede surgir cuando se tienen muchos tratamientos, muchos subgrupos, o una combinación de numerosos tratamientos, subgrupos y variables de resultado.

¿Cómo enfrentar el problema de la inferencia con múltiples variables de resultado?

Hay 4 enfoques principales para ajustar el análisis en el caso de múltiples resultados:

Seleccionar ex ante un indicador para que sea el principal resultado.
Resumir la información de muchos indicadores y de las variables de resultado en una sola hipótesis comprobable mediante un índice.
Resumir muchos indicadores en uno utilizando el efecto medio estándar del tratamiento.
Ajustar los intervalos de confianza para tener en cuenta el hecho de que se están probando varias hipótesis.

Estos enfoques se describen a continuación.

Seleccionar ex ante un indicador para que sea el principal resultado.

No todos los indicadores (las variables de resultado) son igualmente importantes. Por lo tanto, se puede, y se debería, especificar con antelación cuál será el indicador primario. El indicador principal se puede usar para la toma de decisiones, mientras que los demás se usan sólo para entender cómo se dio el resultado, para entender el mecanismo subyacente.

No obstante, si de todas maneras se ponen a prueba muchos indicadores, todavía podría ser necesario usar algunos de los otros enfoques sugeridos en este artículo.

Resumir la información de las múltiples variables de resultado mediante un índice

Los indicadores relacionados pueden agruparse y comprobarse conjuntamente en una sola hipótesis. Esto es útil cuando se tienen múltiples indicadores que intentan capturar distintos aspectos del mismo concepto general. No hay una pregunta que por sí sola capture plenamente el concepto, pero varias preguntas juntas proporcionan una imagen más completa (los indicadores de pobreza multidimensional son un buen ejemplo). En este contexto, no se está tan interesado en encontrar el efecto de cada aspecto individual, sino en la hipótesis general.

La desventaja de crear un índice es que obliga a dar ponderaciones a los indicadores, lo que puede ser considerado arbitrario. Incluso cuando “no se pondera” implícitamente se está ponderando, ya que no ponderar implica dar igual ponderación a cada indicador, es decir, asumir que todos los indicadores son igualmente importantes.

Efecto medio estándar del tratamiento

Este enfoque consiste en:

Asegurarse de que todas las variables se interpretan en el mismo sentido. Por ejemplo, un aumento es bueno, y viceversa.
Estandarizar las variables de resultado: restar la media y dividir por la desviación estándar.
Hacer una regresión por separado para cada variable de resultado.
Calcular la media de todos los efectos (el promedio de los coeficientes de las variables indicativas del tratamiento). Típicamente se usa un promedio no ponderado.

Una dificultad de este método es que no es sencillo calcular el error estándar del efecto promedio.

Ajustar los intervalos de confianza

Es posible ajustar los intervalos de confianza, lo que es equivalente a ajustar los valores-p de las pruebas de hipótesis, de forma tal de tener en cuenta que se están realizando múltiples hipótesis. Existen varios métodos para hacer este ajuste.

Un método es el ajuste de Bonferroni, que consiste en multiplicar el valor-p por el número de pruebas de hipótesis que se lleven a cabo. Su inconveniente es que tiene poco poder, es decir, aunque es menos probable rechazar una nula verdadera, también es menos probable que se rechacen las nulas falsas. Se puede decir que este método es muy conservador.

Otro enfoque más recomendado es el método de Benjamini y Hochberg (1995), donde se calcula una False Discovery Rate (FDR), que es el porcentaje esperado de pruebas en que la hipótesis nula es verdadera entre todas las pruebas realizadas que rechazan dicha hipótesis. En otras palabras, es la tasa esperada de errores tipo 1, el porcentaje de falsos positivos, es decir, el porcentaje de pruebas donde en realidad se debería haber aceptado la hipótesis nula (el resultado debería haber sido no significativo). El método de Benjamini y Hochberg ajusta los valores-p de forma de acotar la FDR.

Bibliografía

Benjamini & Hochberg (1995). Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society, Series B. 57 (1): 289–300. MR 1325392

Glennerster, R., & Takavarasha, K. (2013). Running Randomized Evaluations: A Practical Guide. Princeton University Press. https://doi.org/10.2307/j.ctt4cgd52