Una base de datos económicos para NLP
Contenidos
En este artículo se introduce y se comparte la base de datos de sentimiento económico, que se utilizó para elaborar el Índice de Sentimiento Corporativo (ISC). Esta base de datos se pone a disposición del público para ser utilizada en aplicaciones de NLP para en análisis económico e investigación académica.
Base de datos
La base de datos se encuentra alojada en GitHub:
Base de datos de Sentimiento Económico
https://github.com/percepcioneseconomicas/publicaciones/tree/main/sentiment_data
Los datos se pueden ocupar libremente, siempre y cuando se cite la fuente apropiadamente.
Cómo citar
Citar de la siguiente manera:
Acuña, Guillermo (2021). Base de datos de sentimiento económico. Observatorio de Percepciones Económicas. Descargado de https://percepcioneseconomicas.cl/
Breve descripción de los datos
Se construyó una base de datos de textos económicos, principalmente en base a noticias económicas publicadas en diversos medios prensa online durante abril de 2020 y julio de 2021. Las noticias fueron etiquetadas manualmente como pesimistas, neutrales y optimistas. Adicionalmente, la base de datos contiene fragmentos de cartas a los accionistas de años anteriores, en que claramente se observa una polaridad específica: pesimista, neutral u optimista. En total la base de datos cuenta con 1.461 textos.
Los textos debían cumplir la condición de expresar claramente ideas con cierta polaridad (sentimiento), sin ambigüedades. Si, por ejemplo, un texto contenía una mezcla de ideas pesimistas y optimistas, se optaba por omitirlo, o bien se separaban los textos en fragmentos en con etiquetas individuales.
Otra condición importante fue que los textos contuvieran información económica. Es decir, los textos debían contener la jerga mayormente utilizada en los ámbitos de la economía, negocios, finanzas, marketing, etc.
Variables
- month. Mes en que se publicó el texto.
- year. Año en que se publicó el texto.
- fuente. Señala si el texto proviene de una memoria corporativa o de una noticia publicada en la prensa económica chilena.
- sentimiento. Etiqueta del sentimiento, que puede ser negativo, neutral o positivo.
- response. Corresponde a la codificación del sentimiento, donde 0=negativo, 1=positivo, y 2= neutral.
- empresa. Corresponde a la empresa correspondiente a la memoria de donde se extrajo el texto (sólo aplicable a los casos en que el texto se extrajo de una memoria corporativa).
- texto. Texto de la memoria corporativa o noticia económica.
Índice de sentimiento corporativo
El Índice de Sentimiento Corporativo (ISC) es un estudio en que se realizó un análisis del sentimiento de las cartas a los accionistas publicadas en las memorias corporativas de las empresas del IPSA.
La principal contribución de este trabajo fue que, a diferencia de los otros estudios que interpretan la información implícita en los textos en base a un conjunto arbitrario de palabras, en este estudio la clasificación del sentimiento se realizó mediante algoritmos de Machine Learning, que seleccionan automáticamente las palabras que mejor reflejan los sentimientos optimistas.
De esta manera, se buscó que la clasificación del sentimiento económico encontrado en los textos fuera lo más imparcial y completa posible, en base a patrones y combinaciones de palabras que se encuentran frecuentemente en los textos, y que pueden ser identificadas de forma eficiente y sistemática por los algoritmos.
El algoritmo se utilizó para identificar el sentimiento económico implícito en las cartas a los accionistas de las empresas del IPSA, y en base a esta clasificación se elaboró el índice de sentimiento corporativo (ISC).
La descripción detallada de la metodología se puede encontrar en:
Los resultados del análisis de las cartas accionistas del año 2020 se pueden encontrar en:
Otras aplicaciones
Cabe destacar que la metodología propuesta en el Índice de Sentimiento Corporativo, junto con los datos publicados en este artículo, se pueden aplicar a todo tipo de textos económicos, incluyendo el tipo de información analizado por otros índices del mismo estilo que se han publicado en el país, por ejemplo, el Índice de Incertidumbre Económica de Clapes UC, el Índice de Incertidumbre Político-Económica basado en Twitter, y el Análisis del Sentimiento del Informe de Percepciones de Negocios.
Por lo tanto, los datos y métodos propuestos se pueden usar tanto para fines prácticos, como monitorear la actividad económica y percepciones, como para realizar artículos de investigación académica.