Contenidos
Un programa puede tener efecto en más de un resultado. Por ejemplo, un programa de desparasitación de niños escolares puede afectar tanto su salud como su desempeño escolar. Por otro lado, puede suceder que algunos resultados pueden ser medidos por más de un indicador. Por ejemplo, el efecto de un programa que buscar dar poder de decisión a las mujeres dentro del hogar se puede medir en múltiples decisiones dentro de un hogar (consumo, inversión, etc.).
Usar múltiples variables de resultados puede ser problemático, ya que las pruebas estadísticas estándar (al hacer inferencia) asumen que el investigador está interesado en cada resultado por separado. Pero, si se están comprobando muchos resultados, la probabilidad de encontrar un resultado falso negativo (rechazar una hipótesis nula cuando es verdadera) por lo menos para uno de estos resultados, es mayor que el nivel de significancia de cada prueba.
Por ejemplo, un investigador que está probando 10 hipótesis independientes a un 5% de significancia, rechazará, simplemente por casualidad (por azar), la hipótesis nula por lo menos para una de ellas con una probabilidad de 40%.
Este problema también puede surgir cuando se tienen muchos tratamientos, muchos subgrupos, o una combinación de numerosos tratamientos, subgrupos y variables de resultado.
Hay 4 enfoques principales para ajustar el análisis en el caso de múltiples resultados:
Estos enfoques se describen a continuación.
No todos los indicadores (las variables de resultado) son igualmente importantes. Por lo tanto, se puede, y se debería, especificar con antelación cuál será el indicador primario. El indicador principal se puede usar para la toma de decisiones, mientras que los demás se usan sólo para entender cómo se dio el resultado, para entender el mecanismo subyacente.
No obstante, si de todas maneras se ponen a prueba muchos indicadores, todavía podría ser necesario usar algunos de los otros enfoques sugeridos en este artículo.
Los indicadores relacionados pueden agruparse y comprobarse conjuntamente en una sola hipótesis. Esto es útil cuando se tienen múltiples indicadores que intentan capturar distintos aspectos del mismo concepto general. No hay una pregunta que por sí sola capture plenamente el concepto, pero varias preguntas juntas proporcionan una imagen más completa (los indicadores de pobreza multidimensional son un buen ejemplo). En este contexto, no se está tan interesado en encontrar el efecto de cada aspecto individual, sino en la hipótesis general.
La desventaja de crear un índice es que obliga a dar ponderaciones a los indicadores, lo que puede ser considerado arbitrario. Incluso cuando “no se pondera” implícitamente se está ponderando, ya que no ponderar implica dar igual ponderación a cada indicador, es decir, asumir que todos los indicadores son igualmente importantes.
Este enfoque consiste en:
Una dificultad de este método es que no es sencillo calcular el error estándar del efecto promedio.
Es posible ajustar los intervalos de confianza, lo que es equivalente a ajustar los valores-p de las pruebas de hipótesis, de forma tal de tener en cuenta que se están realizando múltiples hipótesis. Existen varios métodos para hacer este ajuste.
Un método es el ajuste de Bonferroni, que consiste en multiplicar el valor-p por el número de pruebas de hipótesis que se lleven a cabo. Su inconveniente es que tiene poco poder, es decir, aunque es menos probable rechazar una nula verdadera, también es menos probable que se rechacen las nulas falsas. Se puede decir que este método es muy conservador.
Otro enfoque más recomendado es el método de Benjamini y Hochberg (1995), donde se calcula una False Discovery Rate (FDR), que es el porcentaje esperado de pruebas en que la hipótesis nula es verdadera entre todas las pruebas realizadas que rechazan dicha hipótesis. En otras palabras, es la tasa esperada de errores tipo 1, el porcentaje de falsos positivos, es decir, el porcentaje de pruebas donde en realidad se debería haber aceptado la hipótesis nula (el resultado debería haber sido no significativo). El método de Benjamini y Hochberg ajusta los valores-p de forma de acotar la FDR.
Benjamini & Hochberg (1995). Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society, Series B. 57 (1): 289–300. MR 1325392
Glennerster, R., & Takavarasha, K. (2013). Running Randomized Evaluations: A Practical Guide. Princeton University Press. https://doi.org/10.2307/j.ctt4cgd52
"El secreto de Spinoza" es una novela histórica sobre la vida de Baruch Spinoza, uno…
El autor: Kader Abdolah Kader Abdolah (1954-) es un escritor iraní-neerlandés, conocido por sus novelas,…
El autor: Noah Gordon Noah Gordon (1926-2021) fue un escritor estadounidense, conocido principalmente por sus…
El autor Ray Bradbury (1920-2012) fue un escritor estadounidense de ciencia ficción y fantasía. Es…
El autor Eric Arthur Blair (1903-1950), conocido como George Orwell fue un escritor británico conocido…
El autor: Philip K. Dick Philip K. Dick (1928-1982) fue un influyente escritor estadounidense de…