Annotated Data in Spanish for Toxicity and Insults in Digital Social Networks

Resumen

Este repositorio contiene conjuntos de datos y materiales para una elaboración estándar de oro sobre toxicidad e incivilidad en la esfera digital basada en la codificación humana para evaluar comparativamente las tareas de clasificación algorítmica con transformadores y LLMs. El progreso del etiquetado es del 62%. Estamos etiquetando dos muestras de nuevos conjuntos de datos de interacciones políticas digitales en Twitter (rebautizado como X). El primer conjunto comprende casi 5 millones de puntos de datos de tres eventos de protesta latinoamericanos: (a) protestas contra el coronavirus y las medidas de reforma judicial en Argentina durante agosto de 2020; (b) protestas contra los recortes presupuestarios en educación en Brasil en mayo de 2019; y (c) el estallido social en Chile derivado de las protestas contra la subida de la tarifa del metro en octubre de 2019. Nos centramos en las interacciones en español para elaborar un patrón oro de interacciones digitales en este idioma, por lo que priorizamos los datos argentinos y chilenos. El segundo conjunto contiene más de 31 millones de mensajes y más de 9 millones de interacciones entre 2010 y 2022, que cubren la elección de los miembros de la primera Convención Constitucional en Chile, el proceso de redacción y el referéndum en el que se rechazó la propuesta.

Publicación
Dataset, versión preliminar v0.3.3 – Purple Butterfly, Leiden University, Universidad Diego Portales, University of California Irvine y Training Data Lab
Bastián González-Bustamante
Bastián González-Bustamante
Investigador Postdoctoral

Investigador postdoctoral en Ciencias Sociales Computacionales y docente de Gobernanza y Desarrollo en el Instituto de Administración Pública de la Facultad de Gobernanza y Asuntos Globales de la Universidad de Leiden, Países Bajos. Profesor de la Escuela de Administración Pública de la Universidad Diego Portales e Investigador Asociado en Training Data Lab, Chile.

Sebastián Rivera
Sebastián Rivera
Profesor Asistente

Profesor Asistente en la Escuela de Gobierno y Administración Pública de la Universidad Mayor, Chile. Investigador Asociado en Training Data Lab, Chile.

Siguiente
Anterior