Análisis Computacional de Texto para las Ciencias Sociales
Escuela de Invierno en Métodos – Universidad Católica del Uruguay
Docente: Naim Bro, Universidad Adolfo Ibáñez
Modalidad: Presencial
Descripción
Este curso explora herramientas y metodologías computacionales para el análisis de texto en ciencias sociales. A través de sesiones prácticas y discusiones teóricas, abordaremos modelado de tópicos, embeddings, redes, y modelos generativos, con énfasis en su aplicación a fenómenos sociales. Tiene como objetivos:
- Aplicar herramientas computacionales para analizar grandes corpus textuales.
- Utilizar modelos estadísticos y de machine learning para representar contenido textual.
- Interpretar fenómenos sociales a partir de datos textuales.
Datasets
Para los demos, usaré los siguientes datasets. Pero para el trabajo de grupo, siéntanse libres de usar los datasets que prefieran.
- Noticias: Noticias de Uruguay y Chile, extraídas desde Event Registry, para todo el mes de julio 2025 hasta la fecha
- Noticias Uruguay: link
- Noticias Chile: link
- Ofertas inmobiliarias: 6 mil registros de ofertas inmobiliarias (arriendos) en portalinmobiliario.cl para Santiago, Chile: link
- Iniciativas populares: Iniciativas populares, proceso constitucional de Chile 2023: link
Clases
Día 1: Modelado de Tópicos
En esta clase, partimos revisando cómo funcionan los topic models. Luego, reviso un demo en R y STM en Google Colab, y termino mostrando una aplicación en investigación. En el segundo bloque, los alumnos conforman grupos de trabajo, y realizan trabajo práctico aplicando lo que aprendimos en el primer bloque.
- Cuestionario para conocernos: link.
- Introducción al curso.
- Técnica: topic models: Presentación
- Demo: STM sobre corpus de noticias de Uruguay y Chile (código).
- Introducción a los datasets
- Lecturas:
- Ejercicio:
- El entorno de Google Colab
- Identificar los temas dominantes en la cobertura de prensa en el tiempo o diferencias por país. Usar el dataset de noticias
- Colab con preguntas: link, solución
Día 2: Word Embeddings
- Técnica: Word2Vec, Presentación
- Presentación lecturas: link
- Demo: Embeddings sobre ofertas inmobiliarias (código).
- Demo: con fasttext (código).
- Lecturas:
- Ejercicios:
- Crea un Google Colab nuevo y explorar el mapa semántico usando dataset de ofertas inmobiliarias u otro que tú tengas. Puedes además, si tu texto está dividido en distintos hablantes, también los puedes comparar.
Día 3: LLMs para etiquetar un corpus
Día 4: Extracción de Redes desde Texto
- Técnicas: NER, extracción de relaciones, análisis de sentimientos (presentación).
- Demo: text-to-graph con noticias de El Mostrador (código).
- Lecturas: Bro (2025), "A Frustratingly Easy Way of Extracting Political Networks from Text"
- Ejercicios:
- Usa noticias políticas de Chile y/o Uruguay para extraer redes de actores utilizando LLMs. A partir de prompts estructurados, identificarán entidades políticas mencionadas, relaciones entre ellas, y el tono de dichas interacciones (positivo, negativo o neutral). Los resultados se organizarán como grafos dirigidos con pesos sentimentales y se analizará su estructura con herramientas como NetworkX o igraph, destacando patrones de alianzas y conflicto.
Día 5: Taller de Proyecto Aplicado
- Actividades: diseño de pregunta de investigación, análisis textual guiado, presentación de resultados.
- Técnicas: libres, según elección del participante.
Bibliografía principal
- Grimmer, Roberts & Stewart (2022). Text as Data.
- Bro (2025). A Frustratingly Easy Way of Extracting Political Networks from Text.
- Bosley (2025). Improving Probabilistic Models in Text Classification via Active Learning.
- Sarmiento et al. (2022). New Expressions of Community Framing during Polarization.
No se requieren conocimientos previos en programación, aunque familiaridad básica con Python puede ser útil.