Aprende los avances en IA en el procesamiento del lenguaje (1ed. 2025-2026) UNED
El curso de 2 ects planteado es una introducción teórico-práctica a la problemática que se plantea al trabajar con colecciones de textos (corpus) e intentar extraer información o interpretar su contenido en un contexto financiero, médico o periodo histórico. Y en general se pretende responder a la pregunta ¿Qué hacer cuando se dispone de corpus que contienen miles de textos, pero no de miles de millones de textos? ¿Pueden usarse tecnologías basadas en IA como son los modelos del lenguaje, en dominios específicos? En concreto se presentarán casos de estudio con corpus del dominio financiero (informes), médico (ensayos clínicos) e histórico (periódicos históricos de siglos pasados).
Equipo docente
- Ana García Serrano (UNED) (Coordinadora)
- Antonio Moreno Sandoval (UAM)
- Leonardo Campillos (CSIC)
- Juan Cigarrán (UNED)
- Leonardo Campillos (CSIC)
- Antonio Menta (UNED)
- Yanco A. Torterolo (UNED)(Tutor)
Objetivos
- OBJETIVOS GENERALES
- OBJETIVOS ESPECÍFICOS
Se presentarán conceptos relacionados con la creación de colecciones de textos, de anotación de documentos, de tareas y herramientas asociadas de interés para investigadores o profesionales no informáticos o interesados en la gestión de información textual.
Áreas de Conocimiento
Procesamiento del lenguaje natural, Humanidades Digitales, Inteligencia artificial
Temario
- Módulo 1: Introducción a la IA y al PLN
- Módulo 2: Diseño, propiedades de corpus textuales. Almacenamiento y gestión. Caso de estudio en el dominio financiero.
- Módulo 3. Humanidades Digitales. Gestión, tratamiento e interpretación de periódicos históricos.
- Módulo 4: Anotación y guías de anotación. Tecnologías actuales. Caso de estudio en el dominio médico.
- Módulo 5: IA Generativa aplicada al PLN. Aplicaciones relacionadas.
Sistema de evaluación
El curso se compone de ejercicios de autoevaluación tipo test. El usuario deberá superar el 70% del curso para poder tramitar la acreditación.
En las FAQs de IEDRA dispone de la información sobre el trámite de las acreditaciones, tipología, contenido, devoluciones, etc.
Desde UNED Abierta recomendamos inscribirse en el curso como oyente y tramitar la acreditación una vez superado el curso.
Requisitos recomendados
- Ser graduados con interés en PLN, Humanidades Digitales y el uso de nuevas tecnologías basadas en IA.
Es un curso introductorio para aprender conceptos y metodología, ver muchos ejemplos y hacer ejercicios y prácticas sencillas de uso de aplicaciones existentes.
Público objetivo
- Graduados de Humanidades o de STEM con interés en el PLN. Estudiantes de máster.
Lecturas recomendadas
Esta es la bibliografía que acompaña a los contenidos y complementa su estudio en caso de interés del estudiante por profundizar en los conceptos presentados.- Alarcon, R., Moreno, L., and Martínez, P. (2023). EASIER corpus: A lexical simplification resource for people with cognitive impairments. plos one, 18(4), e0283622. https://doi.org/10.1371/journal.pone.0283622
- Campillos-Llanos, L., Bartolome, R., and Reinares, A. R. T. (2024). Enhancing the understanding of clinical trials with a sentence-level simplification dataset. Procesamiento Del Lenguaje Natural, 72, 31-43.
- Campillos-Llanos, L., Terroba-Reinares, A. R., Bartolomé-Rodríguez, R., Valverde-Mateos, A., González-Sánchez, C., Capllonch-Carrión, A., & Heras-Vicente, J. (2024) Replace, Paraphrase or Fine-tune? Evaluating Automatic Simplification for Medical Texts in Spanish. Proceedings of the Language Resources and Evaluation Conference 2024, Torino, Italy, May 2024, pp. 13929–13945. https://aclanthology.org/2024.lrec-main.1216/
- Campillos-Llanos, L., Terroba-Reinares, A.R., Zakhir Puig, S., Valverde-Mateos, A., & Capllonch-Carrión. A. (2022) Building a comparable corpus and a benchmark for Spanish medical text simplification. Procesamiento del Lenguaje Natural, 69, 189-196. https://doi.org/10.26342/2022-69-16
- Campillos-Llanos, L., Valverde-Mateos, A., Capllonch-Carrión, A., & Moreno-Sandoval, A. (2021). A clinical trials corpus annotated with UMLS entities to enhance the access to evidence-based medicine. BMC medical informatics and decision making, 21, 1-19. https://doi.org/10.1186/s12911-021-01395-z
- Carbajo Coronado, B., and Moreno Sandoval, A. (2024). Financial concepts extraction and lexical simplification in Spanish. RAEL: Revista Electrónica de Lingüística Aplicada, 22(1), 164-180. https://rael.aesla.org.es/index.php/RAEL/article/view/590
- García Serrano, A., and Menta Garuz, A. (2022). La inteligencia artificial en las Humanidades Digitales: Dos experiencias con corpus digitales. Revista de Humanidades Digitales, 7, 19-39. https://doi.org/10.5944/rhd.vol.7.2022.30928
- García Subies, Guillem; Álvaro Barbero Jiménez and Paloma Martínez, A comparative analysis of Spanish Clinical encoder-based models on NER and classification tasks, Journal of the American Medical Informatics Association, Volume 31, Issue 9, September 2024, Pages 2137–2146, https://doi.org/10.1093/jamia/ocae054
- Lastra-Diaz, JJ; Goicoetxea, J; Taieb, MAH; Garcia-Serrano, A; Aouicha, MB; Agirre, E; Sanchez, D (2021) A large reproducible benchmark of ontology-based methods and word embeddings for word similarity. Information Systems, 96. PP: 1-17. ISSN: 0306-4379. https://doi.org/10.1016/j.is.2020.101636
- Martinez-Cantón Clara I. y Ortuño, Rocio (2024) Las humanidades digitales en la enseñanza de las literaturas hispánicas- Aplicaciones prácticas. ISBN 9783631908068. Editorial Peter Lang.
- Menta-Garuz, A. and A. García-Serrano (2024) Reaching Quality and Efficiency with a Parameter-Efficient Controllable Sentence Simplification Approach. (ComSIS) Computer Science and Information Systems, Vol. 21, No. 3, 719-741. (2024), https://doi.org/10.2298/CSIS230912017M. ISSN 1820-0214.
- Moreno-Sandoval, A.; Campillos-Llanos, L.; Garcia-Serrano, A. (2024) Language Resources in Spanish for Automatic Text Simplification across Domains. http://arxiv.org/abs/2303.08774
- Moreno-Sandoval, Antonio; Porta, Jordi; Carbajo, Blanca; Samy, Doaa; Mariko, Dominique; El-Haj, Mahmoud (2023). The Financial Document Causality Detection Shared Task (FinCausal 2023). 2023 IEEE International Conference on Big Data (BigData), 2855-2860. https://doi.org/10.1109/BigData59044.2023.10386745
- Moreno Sandoval, A. “Lenguas y computación”. ED. Síntesis, 2019.
- Sanchez Salido, A. Menta and A. García-Serrano (2023) Seeking Information in Spanish Historical Newspapers: The Case of Diario de Madrid (18th and 19th Centuries). Digital Humanities Quarterly. V17. N 4. ISSN: 1938-4122. http://digitalhumanities.org/dhq/vol/17/4/000735/000735.html%20%20
Metadatos
UNED; Humanidades Digitales; Inteligencia Artificial; Procesamiento del Lenguaje Natural; Modelos del Lenguaje; Ingeniería de Instrucciones; Gestión y tratamiento de datos e información textual; Corpus.