Contenidos
En este artículo se muestra cómo hacer una predicción de la tasa de crecimiento mensual del IMACEC cuando tenemos muchas variables disponibles, y no sabemos cuáles son las mejores predictoras del IMACEC. Este problema se puede solucionar de forma automática, usando métodos de machine learning.
El código utilizado en este artículo se puede encontrar en GitHub.
En este ejemplo la variable dependiente fue la primera diferencia del IMACEC, es decir:
Se utilizaron como predictores los siguientes índices de percepciones: indicador mensual de confianza empresarial (IMCE), índice de confianza empresarial (ICE), índice de percepción del consumidor (IPECO), índice de percepción de la economía (IPEC), índice de incertidumbre económica (IEC).
Además, se usaron las siguientes variables, obtenidas de la base de datos estadísticos del Banco Central: IPSA, M1, M2, M3, Colocaciones reales, Colocaciones Consumo, Colocaciones Vivienda, Colocaciones Comerciales, Precio del cobre, Precio del petróleo WTI, Spread EMBI Chile, Bono de gobierno a 10 años – EE.UU., Índice de producción industrial INE, Índice de producción Minería, Índice de producción Manufacturera, Despacho de energía eléctrica CDEC (GWh), Ventas autos nuevos ANAC, IPC General, IPC SAE, IPC sin volátiles, Fuerza de trabajo, Empleo, Tasa de desempleo, TCN, TPM, Tasas BCP 2 años, Tasas BCP 5 años, Tasas BCP 10 años, Tasas BCU 2 años, Tasas BCU 5 años, Tasas BCU 10 años.
Por último, se usaron como predictores el primer rezago de la variable dependiente, y el rezago de 12 meses atrás (para capturar efectos estacionales).
En total suman 38 variables.
Todas las variables se transformaron a la primera diferencia.
En el siguiente gráfico se muestran las correlaciones, en valor absoluto, ordenadas de mayor a menor. La tres variables más correlacionadas con el crecimiento mensual del IMACEC son: el rezago de 12 meses atrás, el índice de producción industrial del INE, y el índice de producción industrial de la minería. Entre los índices de percepciones, la mayor correlación se da con el IMCE.
A continuación se dividió la base de datos en dos conjuntos, uno para entrenar los modelos (hacer estimaciones) y otro para testearlos (hacer predicciones fuera de la muestra y calcular métricas de error).
El conjunto de entrenamiento abarcó el periodo 2010-04 a 2017:12. Durante este periodo se cuenta con observaciones para todas las variables. En total se cuentan 93 meses.
El conjunto de testeo abarcó el periodo 2008-01 a 2021:09. Este periodo incluye los años más recientes, en que la economía se ha visto afectada por la pandemia de covid19. El periodo suma 45 meses.
El siguiente paso fue estandarizar las variables predictoras. Esto se hace debido a que algunos algoritmos de optimización de los modelos son sensibles a la escala de las variables. Por esta razón, estandarizar permite lograr mejores y más rápidos resultados.
Se estandarizó el conjunto de variables predictoras usando la media y varianza del train set. En otras palabras, tanto los datos del train set como los del test set se estandarizaron con los parámetros estimados a partir de datos del train set, exclusivamente, para no contaminar el train set con información del test set.
La variable dependiente no se estandarizó.
Se calcularon 4 métricas de error:
Se usaron los siguientes modelos:
Cada modelo depende una serie de hiper parámetros exógenos, cuya elección se hizo mediante una búsqueda de grilla, de forma tal de optimizar el RMSE de cross validation. Así se evitó seleccionar dichos parámetros de forma arbitraria, a la vez que se mejoró la precisión de la predicción.
En el siguiente cuadro se muestran los resultados para las métricas de error. Se encuentra que el mejor modelo en términos de RMSE_CV fue el Stacking, pero en todas las métricas calculadas en el test set, el mejor modelo fue XGBoost.
En el siguiente cuadro se muestra la columna del R2_test, en que cada valor se dividió por el valor del R2_Test de la Linear Regression y se multiplicó por 100. Se observa que XGBoost mejoró el R2_Test en un 10.34% (en relación al R2_Test de la regresión lineal).
En el siguiente gráfico se muestra la predicción del modelo XGBoost en el test set (predicción fuera de la muestra). Se observa que el resultado es muy bueno, incluso durante los meses de pandemia, en que el IMACEC creció a tasas pocas veces registradas.
Los modelos y herramientas de machine learning tienen muchas aplicaciones prácticas en economía, sobre todo al hacer predicciones. Sin embargo, estos modelos tienen ciertas debilidades, ya que, por ejemplo, no permiten hacer estimaciones estructurales, hacer inferencia o identificar relaciones causales. Por otro lado, en algunos casos, los parámetros estimados por los modelos no tienen una interpretación clara, o es difícil explicar cómo se generan las predicciones (se dice que son como una caja negra).
Pese a estas dificultades, es importante considerar estos modelos como parte del arsenal econométrico de los economistas modernos, ya que, aunque no se puedan usar como sustitutos de los modelos econométricos clásicos, son excelentes complementos.
"El secreto de Spinoza" es una novela histórica sobre la vida de Baruch Spinoza, uno…
El autor: Kader Abdolah Kader Abdolah (1954-) es un escritor iraní-neerlandés, conocido por sus novelas,…
El autor: Noah Gordon Noah Gordon (1926-2021) fue un escritor estadounidense, conocido principalmente por sus…
El autor Ray Bradbury (1920-2012) fue un escritor estadounidense de ciencia ficción y fantasía. Es…
El autor Eric Arthur Blair (1903-1950), conocido como George Orwell fue un escritor británico conocido…
El autor: Philip K. Dick Philip K. Dick (1928-1982) fue un influyente escritor estadounidense de…