Pasar al contenido principal
AAri euskal kultura nola irakatsi
2024 | 26 Junio

¿Dónde nació Itxaro Borda? ¿En Pau?

Oihane Cantero ha investigado en torno a diferentes maneras de enseñar a la inteligencia artificial conocimiento sobre Euskal Herria

Los grandes modelos lingüísticos han cambiado radicalmente el procesamiento del lenguaje y tienen una gran capacidad de producir y comprender texto. Sin embargo, la integración de las lenguas de recursos limitados y sus culturas sigue siendo un reto importante, como es el caso del euskera y la cultura vasca. Oihane Cantero, investigadora de Orai, ha analizado en el Trabajo de Fin de Máster presentado en la UPV/EHU las metodologías para integrar el conocimiento sobre Euskal Herria en los modelos lingüísticos.

Los objetivos principales del trabajo de Cantero han sido proporcionar a los modelos lingüísticos conocimiento sobre Euskal Herria y evaluarlo. Para ello, ha creado un conjunto de datos formado por preguntas de opción múltiple para evaluar el conocimiento factual de Euskal Herria (denominado EHQA) y ha propuesto una metodología semiautomática para la creación de este tipo de conjuntos de datos.  La incorporación del conocimiento sobre Euskal Herria se ha realizado mediante técnicas diversas, como el preentrenamiento continuo (continual pretraining), las técnicas de edición del conocimiento (knowledge editing) y el aumento de las competencias de los modelos lingüísticos mediante el conocimiento externo (RAG, Retrieval Augmented Generation).

Los resultados muestran una mejora notable en la capacidad del modelo para generar y comprender el conocimiento en euskera: gracias al uso del framework Harness, la precisión ha aumentado del 33 % al 88 % con las técnicas de edición y al 71 % con la RAG. En este trabajo, Cantero ha conseguido dotar a los modelos lingüísticos del conocimiento factual de Euskal Herria, pero con ciertas limitaciones: “Las técnicas de edición no permiten realizar tantos cambios sin empeorar las capacidades del modelo, y con la RAG el conocimiento no se integra en el propio modelo y solo se puede utilizar para responder preguntas”, ha señalado la investigadora de Orai.

Orai ha hecho público el dataset conseguido en el trabajo de fin de máster de Cantero. Se trata de un conjunto de datos para testear el conocimiento sobre Euskal Herria, que puede ser utilizado por la comunidad científica para avanzar en la integración de las lenguas que disponen de pocos recursos en los grandes modelos de lenguaje: https://huggingface.co/datasets/orai-nlp/EHQA

Oihane Cantero ha contado en este trabajo con la colaboración de Zuhaitz Beloki y Xabier Saralegi, y ha conseguido la máxima puntuación. Como tutor ha tenido a Gorka Azkune, de la UPV/EHU.

 

 

Modelos lingüísticos neuronales