Bases de datos

Base de datos de sentimiento económico

Una base de datos económicos para NLP

En este artículo se introduce y se comparte la base de datos de sentimiento económico, que se utilizó para elaborar el Índice de Sentimiento Corporativo (ISC). Esta base de datos se pone a disposición del público para ser utilizada en aplicaciones de NLP para en análisis económico e investigación académica.

Base de datos

La base de datos se encuentra alojada en GitHub:

Base de datos de Sentimiento Económico

https://github.com/percepcioneseconomicas/publicaciones/tree/main/sentiment_data

Los datos se pueden ocupar libremente, siempre y cuando se cite la fuente apropiadamente.

Cómo citar

Citar de la siguiente manera:

Acuña, Guillermo (2021). Base de datos de sentimiento económico. Observatorio de Percepciones Económicas. Descargado de https://percepcioneseconomicas.cl/

Breve descripción de los datos

Se construyó una base de datos de textos económicos, principalmente en base a noticias económicas publicadas en diversos medios prensa online durante abril de 2020 y julio de 2021. Las noticias fueron etiquetadas manualmente como pesimistas, neutrales y optimistas.  Adicionalmente, la base de datos contiene fragmentos de cartas a los accionistas de años anteriores, en que claramente se observa una polaridad específica: pesimista, neutral u optimista. En total la base de datos cuenta con 1.461 textos.

Los textos debían cumplir la condición de expresar claramente ideas con cierta polaridad (sentimiento), sin ambigüedades. Si, por ejemplo, un texto contenía una mezcla de ideas pesimistas y optimistas, se optaba por omitirlo, o bien se separaban los textos en fragmentos en con etiquetas individuales.

Otra condición importante fue que los textos contuvieran información económica. Es decir, los textos debían contener la jerga mayormente utilizada en los ámbitos de la economía, negocios, finanzas, marketing, etc.

Variables

  • month. Mes en que se publicó el texto.
  • year. Año en que se publicó el texto.
  • fuente. Señala si el texto proviene de una memoria corporativa o de una noticia publicada en la prensa económica chilena.
  • sentimiento. Etiqueta del sentimiento, que puede ser negativo, neutral o positivo.
  • response. Corresponde a la codificación del sentimiento, donde 0=negativo, 1=positivo, y 2= neutral.
  • empresa. Corresponde a la empresa correspondiente a la memoria de donde se extrajo el texto (sólo aplicable a los casos en que el texto se extrajo de una memoria corporativa).
  • texto. Texto de la memoria corporativa o noticia económica.

Índice de sentimiento corporativo

El Índice de Sentimiento Corporativo (ISC) es un estudio en que se realizó un análisis del sentimiento de las cartas a los accionistas publicadas en las memorias corporativas de las empresas del IPSA.

La principal contribución de este trabajo fue que, a diferencia de los otros estudios que interpretan la información implícita en los textos en base a un conjunto arbitrario de palabras, en este estudio la clasificación del sentimiento se realizó mediante algoritmos de Machine Learning, que seleccionan automáticamente las palabras que mejor reflejan los sentimientos optimistas.

De esta manera, se buscó que la clasificación del sentimiento económico encontrado en los textos fuera lo más imparcial y completa posible, en base a patrones y combinaciones de palabras que se encuentran frecuentemente en los textos, y que pueden ser identificadas de forma eficiente y sistemática por los algoritmos.

El algoritmo se utilizó para identificar el sentimiento económico implícito en las cartas a los accionistas de las empresas del IPSA, y en base a esta clasificación se elaboró el índice de sentimiento corporativo (ISC).

Índice de Sentimiento Corporativo

La descripción detallada de la metodología se puede encontrar en:

Los resultados del análisis de las cartas accionistas del año 2020 se pueden encontrar en:

Otras aplicaciones

Cabe destacar que la metodología propuesta en el Índice de Sentimiento Corporativo, junto con los datos publicados en este artículo, se pueden aplicar a todo tipo de textos económicos, incluyendo el tipo de información analizado por otros índices del mismo estilo que se han publicado en el país, por ejemplo, el Índice de Incertidumbre Económica de Clapes UC, el Índice de Incertidumbre Político-Económica basado en Twitter, y el Análisis del Sentimiento del Informe de Percepciones de Negocios.

Por lo tanto, los datos y métodos propuestos se pueden usar tanto para fines prácticos, como monitorear la actividad económica y percepciones, como para realizar artículos de investigación académica.


Contenido relacionado

Guillermo Acuña

Economista | Investigador | Data Scientist | Consultor

Entradas recientes

El secreto de Spinoza, de José Rodrigues dos Santos

"El secreto de Spinoza" es una novela histórica sobre la vida de Baruch Spinoza, uno…

4 meses hace

La casa de la mezquita, de Kader Abdolah

El autor: Kader Abdolah Kader Abdolah (1954-) es un escritor iraní-neerlandés, conocido por sus novelas,…

5 meses hace

El último judío, de Noah Gordon

El autor: Noah Gordon Noah Gordon (1926-2021) fue un escritor estadounidense, conocido principalmente por sus…

5 meses hace

Fahrenheit 451, de Ray Bradbury

El autor Ray Bradbury (1920-2012) fue un escritor estadounidense de ciencia ficción y fantasía. Es…

5 meses hace

1984, de George Orwell

El autor Eric Arthur Blair (1903-1950), conocido como George Orwell fue un escritor británico conocido…

5 meses hace

VALIS, de Philip K. Dick

El autor: Philip K. Dick Philip K. Dick (1928-1982) fue un influyente escritor estadounidense de…

6 meses hace