TextClass Benchmark: A Continuous Elo Rating of LLMs in Social Sciences
El proyecto TextClass Benchmark es un proceso continuo de evaluación comparativa cuyo objetivo es proporcionar una evaluación exhaustiva, justa y dinámica de LLMs y transformadores para tareas de clasificación de textos. Esta evaluación abarca varios dominios y lenguajes de las disciplinas de las ciencias sociales dedicadas a al procesamiento de lenguaje natural y al enfoque del texto como dato. Las tablas de clasificación presentan métricas de rendimiento y clasificación relativa mediante un sistema de clasificación Elo adaptado. En cada ciclo de clasificación se añaden nuevos modelos, los conjuntos de pruebas fijos pueden sustituirse por datos equivalentes no vistos para comprobar el poder de generalización, se actualizan las clasificaciones y una clasificación Meta-Elo combina y pondera las clasificaciones específicas de cada dominio. Este artículo presenta los fundamentos y la motivación del proyecto, explica en detalle el sistema de clasificación Elo y estima Meta-Elo a través de diferentes tareas de clasificación en disciplinas de ciencias sociales. También presentamos una instantánea del primer ciclo de tareas de clasificación sobre datos de incivilidad en chino, inglés, alemán y ruso. Este proceso de evaluación comparativa en curso incluye no sólo idiomas adicionales como el árabe, el hindi y el español, sino también una clasificación de temas de agenda política, desinformación, entre otros.