Contenidos
Un plan de pre-análisis, PPA, es un documento que describe, por adelantado, como se analizarán los datos de un experimento. Este tipo de planes es muy usado en evaluaciones experimentales en medicina, por ejemplo, cuando se prueban medicamentos o tratamientos médicos, y su fin es evitar arbitrariedades y malas prácticas en el tratamiento de los datos, otorgando credibilidad al estudio.
Hay que mencionar que tener un plan de pre análisis (PPA) produce cierta tensión entre los beneficios de la credibilidad de tener este control previo de las propias acciones, y los beneficios de la flexibilidad para responder a eventos y resultados no previstos.
Si se comparan dos grupos de personas en muchos aspectos diferentes, es probable que por lo menos en uno de esos aspectos se encuentre diferencias estadísticamente significativas entre los grupos, por simple casualidad (por azar).
Si no fuéramos objetivos, sino que quisiéramos mostrar que un programa funciona, sin importar lo que diga la evidencia, podríamos hacer un gran número de comparaciones, para distintas variables de resultado, donde por azar se encontrará algún efecto significativo. Con este objetivo también podríamos analizar los resultados para múltiples subgrupos de la población, hasta encontrar un subgrupo con resultados significativos. De esta manera, al combinar las múltiples variables de resultado con los múltiples subgrupos, se hace aún más probable encontrar resultados significativos por mera casualidad. Finalmente, se reportan sólo los resultados deseados por el investigador.
A este enfoque se le denomina minería de datos (data mining): buscar el resultado deseado en los datos hasta que se encuentra. Otros conceptos relacionados son: data dredging, data snooping, y p-hacking.
Los evaluadores tienen el riesgo de ser acusados de hacer minería de datos, aun cuando no hayan tenido la intención de hacerlo. Esto puede suceder cuando un investigador, inocentemente, realiza una gran cantidad de comparaciones y pruebas de hipótesis, y reporta sólo los resultados significativos o llamativos. Es decir, fue como si hubiera realizado data mining, aunque no fue su intención.
Usar un PPA protege del riesgo de esa acusación.
Un PPA establece un protocolo de análisis, donde se especifica la forma en que se tratarán los datos una vez que se obtengan.
Otro enfoque es ajustar de los errores estándar para el caso de las pruebas múltiples (por ejemplo, método de Benjamini y Hochberg), pero para implementarlo es necesario tener una lista de todas las hipótesis que se pusieron a prueba (no solo aquellas que se reportan). En este contexto, un PPA proporciona una forma útil y creíble de especificar cuántas regresiones diferentes se estimaron, formando la base de los cálculos del ajuste.
Por naturaleza los experimentos aleatorios están menos expuestos a la minería de datos que la mayoría de las otras técnicas de evaluación, ya que muchos aspectos, como las variables de resultado y la composición de los grupos se determinan con anterioridad al análisis. Sin embargo, hay excepciones, donde se deberían usar los PPA. En otras palabras, un PPA es sobre todo útil cuando se tiene una considerable flexibilidad respecto a la forma en que se pueden analizar los datos.
Tres dimensiones en las que hay flexibilidad son:
Cuando hay muchas variables de resultado se genera el riesgo de acusación de data mining, aun cuando a veces sea bueno medir un resultado de distintas formas, o medir varios resultados distintos. Un PPA permite especificar anticipadamente cuál de todos los resultados será considerado como el más importante.
Pueden existir fuertes razones teóricas para esperar que un programa tenga impactos diferentes sobre distintos subgrupos de personas. Incluso el signo del efecto puede variar. Sin embargo, una acusación de minería de datos puede surgir cuando se presenta un impacto general no significativo, y, a la vez, se presentan resultados positivos para algunos subgrupos y negativos para otros. Esta es una buena razón para tener un PPA, ya que permite demostrar que los subgrupos no fueron elegidos inapropiadamente.
Las principales elecciones son: (1) Decidir si se incluyen variables de control, (2) ¿Qué variables de control incluir?
Otras decisiones pueden ser:
Si se olvida incluir un subgrupo o un resultado en el plan, y luego resulta ser un determinante importante, el hecho de no haberlo incluido en el PPA debilita su credibilidad.
Puede haber un análisis que no estaba en nuestro PPA pero que, ex post, se piensa que es importante. La mayoría de los economistas sugeriría incluirlos y ser transparentes respecto del hecho de que no estaban incluidos en el PPA.
A veces, la forma correcta de hacer un análisis puede depender de los principales hallazgos. Por ejemplo, si se encuentra que el programa tiene efectos positivos muy grande e inesperado, es razonable examinar a continuación la evidencia sobre los mecanismos por medio de los cuales tuvo ese efecto.
Es posible escribir un PPA condicional: si se encuentra un resultado X se procederá de determinada manera; si se encuentra Y, se procederá de otra manera.
Un enfoque alternativo es especificar el PPA hasta cierta etapa de la investigación, y, tras observar los datos y responder a cierta pregunta, se especifica el resto.
Para maximizar la protección contra las acusaciones de minería de datos se debe escribir el PPA antes de empezar la evaluación, es decir, antes de recopilar los datos de línea de base y que se haya implementado la evaluación.
No obstante, una desventaja de escribir el PPA con mucha anticipación es que hay mucha información que se adquiere durante el proceso, y que puede utilizarse para mejorar el análisis. Por esta razón, el momento más común para escribir el PPA es después de recopilar los datos de la medición final, para dedicar tiempo a observar los datos del grupo de comparación antes de finalizar el PPA. Tener en cuenta que, para evitar acusaciones, se deben observar sólo los datos del grupo control, para que así no se puedan buscar correlaciones causales entre los resultados y la condición experimental.
Glennerster, R., & Takavarasha, K. (2013). Running Randomized Evaluations: A Practical Guide. Princeton University Press. https://doi.org/10.2307/j.ctt4cgd52
Introducción Este blog se basa en el artículo de Bergram et al. “The Digital Landscape…
Este blog se basa en el artículo de Julio Cesar Leandro y Delane Botelho, Consumer…
Este blog se basa en el artículo de Julio Cesar Leandro y Delane Botelho, Consumer…
Este blog se basa en el artículo de Julio Cesar Leandro y Delane Botelho, Consumer…
"El secreto de Spinoza" es una novela histórica sobre la vida de Baruch Spinoza, uno…
El autor: Kader Abdolah Kader Abdolah (1954-) es un escritor iraní-neerlandés, conocido por sus novelas,…