Entrenamiento de datos sobre los proyectos de ley del Congreso chileno

Investigadores: Carla Cisternas, Bastián González-Bustamante, Jaquelin Morillo y Diego Aguilar

Project Status: Standby    English    Spanish

Datos y muestras

A partir de un conjunto de datos de proyectos de ley de la Cámara de Diputados de Chile entre 2006 y 2018 (N = 4.139), período que corresponde a tres administraciones, extraemos una submuestra aleatoria considerando algunos proyectos de ley por mes. En esta submuestra realizamos dos procedimientos de codificación de datos para identificar tanto el tema del proyecto de ley como su alcance territorial.

Codificación de los proyectos de ley del Congreso chileno

Buscamos codificadores ad honorem para etiquetar nuestra submuestra de proyectos de ley del Congreso para esta investigación. Necesitamos estudiantes de licenciatura o de magíster de programas de ciencias sociales. Nuestros codificadores recibirán formación general y dedicarán una cantidad de tiempo variable y flexible a esta tarea.

No trabajamos con un número concreto de codificadores porque iteramos el proceso de etiquetado para mejorar la precisión de la codificación hasta alcanzar un nivel de alta confiabilidad. Cada observación de la submuestra requiere la validación de un número diferente de codificadores en función de las categorías de la tarea de clasificación específica. Por ejemplo, la identificación del ámbito territorial de los proyectos posee un umbral más alto de codificadores que la identificación del tema, que tiene menos resultados posibles.

Para más detalles, póngase en contacto con c.g.cisternas.guasch@hum.leidenuniv.nl.

Clasificación con aprendizaje automático

Una vez codificada la base de datos, entrenamos un modelo y predecimos los datos no codificados mediante técnicas de aprendizaje automático. En esta fase, es posible incorporar la validación humana en el flujo de trabajo para revisar las observaciones con valores de confianza bajos. Finalmente, tendremos los datos necesarios para realizar nuestro análisis principal, en este caso, modelos estocásticos basados en actores para redes dinámicas, con el objetivo de observar las estrategias de copatrocinio en el Congreso de Chile a lo largo del período.

Progreso

1. Recopilación de datos       100%       2. Limpieza de datos       100%
3. Etiquetado       88%       4. Iteraciones del etiquetado       64%
5. Entrenamiento del modelo       33%       6. Evaluación del modelo       33%
7. Predicciones       0%       8. IA aumentada       0%


Arte por DALL·E en un estilo impresionista.
Diagrama por Cisternas, González-Bustamante, Morillo y Aguilar (2021).
Última actualización: 18 de marzo de 2023.