Identificando la toxicidad en la esfera digital: Bastián González-Bustamante presenta su trabajo en el 8th Monash-Warwick-Zurich Text-as-Data Workshop

Créditos de la imagen: Unsplash

En un mundo donde las redes sociales son cada vez más omnipresentes, la capacidad de identificar y comprender la toxicidad e incivilidad en línea es crucial para la democracia y la sociedad civil. En este sentido, el proyecto “Large Language Models (LLMs) to Identify Toxicity in the Digital Sphere during Protest Events in Latin America” busca desarrollar tecnologías para detectar y analizar la toxicidad en las redes sociales durante eventos de protesta en América Latina.

Este proyecto, financiado por OpenAI, se enmarca en el objetivo de crear herramientas y modelos que puedan ser utilizados por investigadores y profesionales para analizar y comprender grandes cantidades de texto. En este sentido, nuestro investigador asociado Bastián González-Bustamante presentó su trabajo “Benchmarking LLMs in Political Content Text-Annotation: Proof-of-Concept with Toxicity and Incivility Data” en el 8th Monash-Warwick-Zurich Text-as-Data Workshop, celebrado de forma virtual del 16 al 17 de septiembre.

En este trabajo, González-Bustamante evaluó la capacidad de diferentes LLMs para realizar tareas de annotación en contenido político, utilizando un novedoso conjunto de datos de eventos protesta digital que comprende más de tres millones de interacciones digitales. El objetivo del estudio fue evaluar las habilidades de diferentes modelos LLM, incluyendo el algoritmo Perspective de Google y los modelos GPTs de OpenAI, para realizar tareas de annotación en contenido político.

Los resultados muestran que el algoritmo Perspective API, utilizando un umbral más laxo, GPT-4o y Nous Hermes 2 Mixtral superan a otros modelos LLM en la clasificación zero-shot. Además, los resultados sugieren que Nous Hermes 2 y Mistral OpenOrca, con un número menor de parámetros, son capaces de realizar la tarea con un buen desempeño, ofreciendo opciones atractivas que pueden proporcionar buenos equilibrios entre el rendimiento, el costo de implementación y el tiempo de cálculo.

El trabajo de nuestro investigador está disponible en arXiv, una plataforma de acceso abierto que publica artículos científicos y tecnológicos en forma electrónica. Fundada en 1991, arXiv es una de las plataformas más importantes del mundo para la publicación de documentos científicos y tecnológicos. En arXiv, los autores pueden depositar sus trabajos en formato electrónico, lo que permite una rápida difusión y acceso a la comunidad científica. La plataforma también proporciona herramientas para el seguimiento de citas y estadísticas de acceso, lo que ayuda a evaluar el impacto del trabajo.

Esta investigación será nuevamente presentada durante el mes de diciembre en la conferencia ODISSEI (Open Data Infrastructure for Social Science and Economic Innovations) de ciencias sociales computacionales en Utrecht, Países Bajos. Le invitamos a leer el trabajo de Bastián González-Bustamante en arXiv y explorar los resultados y hallazgos presentados. El estudio es un ejemplo valioso de cómo la investigación en text-as-data puede informar y mejorar la anotación automatizada de textos con contenido político.

* Texto generado por AI
Lee más acerca de cómo generamos nuestros contenidos

ChatBot Ollama
ChatBot Ollama
Modelo de Lenguaje

ChatBot Ollama desplegado localmente por Training Data Lab con base en diferentes versiones de LLaMA 3, LLaMA 2, Mistral.

Anterior