En este artículo continúa el torneo de predicciones de IMACEC en base a modelos de machine learning.
En primer lugar, se evalúan las predicciones del mes anterior, junio de 2021, en que se predijo el IMACEC de mayo de 2021. Luego se hace una nueva predicción, para junio de 2021.
En esta oportunidad la única innovación que se introduce en los modelos es reducir a la mitad el número de regresores, de forma de hacer la predicción en base a un modelo más parsimonioso. Para hacer la selección se usó el modelo de regresión Random Forest, ajustando 100 modelos individuales e independientes a cada muestra. Luego, se calculó la importancia de cada variable para el modelo, y se seleccionó un subconjunto de variables, igual al 50% de variables con mayor importancia para la predicción.
Puedes descargar el código utilizado en este artículo en GitHub.
Evaluación de los resultados del mes anterior
La tasa de crecimiento anual del IMACEC en mayo de 2021 fue de 18.1%, un número anormalmente alto, que se explica por la baja base de comparación del año anterior, en que la economía estaba siendo seriamente afectada por la pandemia de covid19. Esta es la máxima tasa de crecimiento anual alguna vez registrada para el IMACEC.
Todos los modelos en base a percepciones subestimaron la tasa de crecimiento del IMACEC, lo que era esperable, debido a que la confianza de los consumidores se encontraba en niveles pesimistas, mientras que la confianza de los empresarios se encontraba en niveles neutrales. En base a dichos niveles no era justificable predecir la tasa de crecimiento anual del IMACEC más grande de toda la historia.
La mejor predicción del mes fue la realizada en base a todos los índices. En segundo lugar, se ubicó la predicción del ICE, uno de los índices de confianza empresarial. Luego se encuentra la predicción en base a todos los índices de confianza empresarial.
A continuación se muestra el ranking promedio por índice. en primer lugar se ubica el ICE, y luego el IMCE, ambos índices de confianza empresarial. Luego se encuentra el modelo en base a ambos índices de confianza empresarial.
El siguiente cuadro muestra el número acumulado de victorias. Empatan en el primer lugar los modelos en base al IMCE y a todos los índices.
Predicción de junio de 2021: modelos
Para hacer la predicción de junio de 2021, se ocuparon los mismos modelos de los meses anteriores, y los mismos pasos y parámetros para calibrarlos. También se siguen considerando las nuevas variables creadas en el mes anterior.
En el caso de los índices de confianza de los consumidores, IPECO e IPEC, se crearon las siguientes variables:
- Promedio móvil trimestral
- Promedio móvil semestral
- Índice de percepciones del presente
- Índice de percepciones del futuro
- Índice de percepciones personales
- Índice de percepciones nacionales
Los índices de percepciones del presente, futuro, personales y nacionales sólo incluyen los índices de percepciones relacionados con estas dimensiones.
En el caso de los índices de confianza empresarial IMCE e ICE se construyeron las siguientes variables:
- Promedio simple de los índices sectoriales
- Promedio trimestral
- Promedio semestral
- Promedios sin algún sector económico
De esta manera se obtiene una gran cantidad de variables por cada base de datos: IPECO (12), IPEC (12), ICE (16), IMCE (12), Consumidores (IPECO + IPEC, 24), Empresarios (ICE + IMCE, 28), Todos (52).
Cuando se usan muchas variables, los modelos aumentan su complejidad de forma tal que puede aumentar la varianza de las predicciones, haciendo que aumente el error cuadrático medio de la predicción. Se produce overfitting. Debido a lo anterior, durante este mes se optó por probar reducir el número de variables en base a las importancias entregadas por el Random Forest. De esta manera, se usaron modelos más parsimoniosos para hacer las predicciones.
Calibración de los modelos
La matriz de predictores ocupados en cada modelo se compone de:
- Filas: todos los datos (observaciones) disponibles para cada grupo de índices, lo que varía dependiendo de cada grupo.
- Columnas: la mitad más importante de los índices de confianza, índices de percepciones (variables que los componen), y los nuevos índices generados (descritos anteriormente).
Luego, para cada modelo se usa K-fold cross validation y una búsqueda de grilla en un conjunto de parámetros, para seleccionar la mejor combinación de éstos, que minimice el CV-RMSE.
Se observa que el modelo en que se ocuparon todas las variables fue el que obtuvo el menor CV-RMSE. También se observa que entre los índices individuales el IMCE obtuvo el mejor resultado.
Antes de hacer las predicciones se ajustaron los modelos a la muestra completa, usando los mejores parámetros seleccionados.
Predicciones del mes
Por último, se muestran las predicciones para el mes de junio de 2021:
La mayor predicción la da el modelo que considera todos los índices de confianza empresarial (5.9%), mientras que la menor predicción la da el modelo en base al IPEC (1.9%). Como referencia, la encuesta de expectativas económica predice un crecimiento anual del IMACEC de 16.5%.