Análisis de poder en evaluaciones de impacto

Introducción

Al hacer un experimento se trabaja con una muestra representativa de la población en estudio, a partir de la cual se levantan datos y se hacen estimaciones, cuya validez se prueba estadísticamente. Dado que la muestra es aleatoria, las estimaciones también lo son. Si obtenemos 100 muestras de la población, a partir de cada una de ellas obtendríamos 100 estimaciones, probablemente diferentes.

Al estimar un impacto, se desea saber si el efecto estimado se debe al programa o intervención con un cierto nivel de confianza, es decir, queremos estar seguros que no fue un resultado encontrado por pura casualidad. Para esto se realiza una prueba estadística, donde se testea si la diferencia entre los resultados de los grupos tratamiento y control es estadísticamente significativa, lo que significa que la probabilidad de haber encontrado dicha diferencia por azar es muy baja.

Sin embargo, podría suceder que el impacto estimado sea muy impreciso, impidiendo diferenciar entre las medias de ambos grupos con el nivel de confianza requerido. En casos así, se dice que la evaluación no tiene suficiente poder estadístico. Por lo tanto, el poder estadístico se puede interpretar como una medida de la sensibilidad de un experimento.

Cuatro casos posibles y dos tipos de error

Falso positivo

Ocurre cuando se rechaza una hipótesis nula verdadera. Se encuentra un efecto significativo estadísticamente, pero el programa no tiene un efecto verdadero. Si el programa no tiene efecto, la probabilidad de cometer un error de falso positivo: error tipo I o alfa, se denomina nivel de significancia (alfa). Por convención no debe ser mayor que 5%, lo que significa que, si la hipótesis nula es verdadera, la probabilidad de que la diferencia observada se deba sólo al azar es de 5% o menos.

Falso verdadero (Negativo negativo)

Ocurre cuando no se rechaza una hipótesis nula verdadera. Cuando, correctamente, la hipótesis nula no es rechazada. Cuando no se encuentra efecto significativo y en realidad no existe. Se denomina nivel de confianza a la probabilidad de no rechazar la hipótesis nula cuando es verdadera. Es el complemento del nivel de significancia (1 – alfa). Si el efecto verdadero es cero, hay un 95% de probabilidad de que no se rechace la nula.

Falso negativo

Ocurre cuando no se rechaza una hipótesis nula falsa. Cuando no se encuentra un efecto significativo cuando realmente existe. El error tipo 2 (beta): es la probabilidad de no rechazar la hipótesis nula cuando es falsa. Por convención se fija beta = 20%. Dicho valor sólo puede definirse en relación con un tamaño del efecto determinado, lo que implica que, si el efecto verdadero del tratamiento es de dicho tamaño, hay un 20% de probabilidad de que se falle al intentar encontrar un efecto significativo. Se denomina poder estadístico (1 – beta) a la probabilidad de que no cometer un error de tipo 2. En otras palabras, es la probabilidad de que (si el verdadero efecto es de un determinado tamaño) se encontrará un efecto estadísticamente distinto de cero. Por convención, al definir beta = 20%, el poder estadístico es de un 80%.

Positivo verdadero (Positivo positivo)

Se encuentra un positivo verdadero cuando se rechaza una hipótesis nula falsa. En otras palabras, cuando se encuentra un efecto estadísticamente significativo y verdaderamente existe un efecto. En este caso inferimos correctamente que el programa funciona. La probabilidad de encontrar un positivo verdadero, cuando realmente existe un efecto de tamaño determinado, es (1 – beta). Esta probabilidad es el poder estadístico.

¿Qué nivel de significancia y poder usar?

Por convención, el nivel de significancia, la probabilidad de un falso positivo, se fija en 5%, mientras que la probabilidad de un falso negativo se establece en 20% (a veces en 10%), es decir, se fija un poder estadístico de 80% (para un determinado tamaño del efecto).

Lo anterior implica que, comúnmente, preocupan más los falsos positivos que los falsos negativos.

Determinantes del poder

A continuación se describe la relación entre poder y cada uno de sus determinantes:

Nivel de significancia (-)

A menor nivel de significancia mayor poder. Es más probable que se rechace la hipótesis nula y se encuentren efectos significativos. Sin embargo, también será más probable que se cometan errores falsos positivos (tipo 1).

Efecto Mínimo Detectable, EMD (+)

A mayor EMD mayor poder. Es más fácil (probable) detectar efectos de mayor tamaño. El EMD se puede definir como desviaciones estándar, en cuyo caso un EMD pequeño es de 0,2 DE, mientras que un EMD mediano es de 0,4-0,5 DE, y un EMD grande es de 0,8 DE. La anterior es una regla práctica, aunque depende del contexto.

Varianza (-)

Cuando menor sea la varianza del resultado de interés en la población, menor será la varianza de la estimación y mayor el poder (ya que el error estándar de la estimación depende de la desviación estándar muestral de la variable de resultado, que a su vez es una estimación de la varianza poblacional).

Tamaño muestral (+)

Cuando mayor sea el tamaño muestral, menor será la varianza del efecto estimado y mayor será el poder.

Fracciones de asignación (+)

En general, cuanto más igualitaria sea la distribución de la muestra entre los grupos de tratamiento y control, mayor será el poder. Por ejemplo, si hay un grupo control y un grupo de tratamiento, el poder se maximiza asignando un 50% de la muestra a cada grupo.

Nivel de agregación en la unidad muestral (-)

La aleatorización a nivel individual es más poderosa que la aleatorización a nivel de conglomerado con el mismo tamaño muestral (debido a que las unidades muestrales dentro de cada conglomerado se correlacionan).

Correlación dentro del conglomerado (-)

Mientras más se correlacionen los resultados dentro de los conglomerados en una aleatorización por conglomerado, menor será el poder.

Cómo calcular el poder: Optimal Design

Optimal Design es un software gratuito especialmente diseñado para hacer análisis de poder estadístico. Una ventaja de este software es que muestra gráficamente cómo se incrementa el poder al aumentar la muestra para diferentes niveles del EMD, lo que puede ayudar a ver la magnitud de algunos tradeoff anteriormente descritos.

Tener en cuenta que cuando Optimal Design da el tamaño muestral necesario para un determinado EMD, asume dos grupos de asignación: tratamiento y control. Si se tienen dos grupos de tratamiento y uno de control, será necesario tomar el tamaño muestral reportado, dividirlo por dos (para obtener el tamaño muestral por grupo) y luego multiplicar por tres (el número de grupos en el experimento).

Bibliografía

Glennerster, R., & Takavarasha, K. (2013). Running Randomized Evaluations: A Practical Guide. Princeton University Press. https://doi.org/10.2307/j.ctt4cgd52

Contenidos relacionados