ORAI en la conferencia LREC-COLING 2024
Los investigadores Gorka Urbizu e Iñigo Morcillo, del equipo de Orai, han participado en la conferencia LREC COLING 2024 celebrada en Turín (Italia), dando a conocer dos trabajos de investigación
Dos investigadores de Orai han asistido a la conferencia Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), organizada en Turín por dos organizaciones internacionales del ámbito de la lingüística computacional, la Asociación Europea de Recursos Lingüísticos ELRA (ELRA) y el Comité Internacional de Lingüística Computacional (ICCL).
Los investigadores Gorka Urbizu e Iñigo Morcillo han presentado sendos trabajos en la conferencia que ha reunido a profesionales de la investigación de todo el mundo.
Acerca de las dificultades de la morfología compleja y del orden flexible de las palabras en euskera
Urbizu ha acudido a Turín para presentar el trabajo “How Well Can BERT Learn the Grammar of an Agglutinative and Flexible-Order Language? The Case of Basque“, realizado en colaboración con los investigadores Muitze Zulaika, Xabier Saralegi y Ander Corral. “Los modelos lingüísticos neuronales son capaces de aprender la gramática de la lengua. El euskera se caracteriza por una morfología compleja y un orden flexible de las palabras, y en este trabajo hemos analizado si estas características dificultan el aprendizaje de la gramática del euskera a un modelo lingüístico”, explica Urbizu.
En el análisis han entrenado diferentes modelos BERT para el euskera y han evaluado el conocimiento gramatical de los modelos en euskera, teniendo en cuenta factores tales como el número de textos para el entrenamiento, el tamaño del modelo, el tiempo de entrenamiento, la lematización o no lematización, etc. En palabras de Urbizu, “dos son las aportaciones más significativas de este trabajo. Por un lado, se ha creado el conjunto de datos BL2MP. Sirve para evaluar el conocimiento que tienen los modelos lingüísticos de la gramática del euskera. Por otra parte, las conclusiones obtenidas en torno a diversos factores de entrenamiento de modelos ayudarán a tomar mejores decisiones a la hora de entrenar nuevos modelos lingüísticos para el euskera, y pueden servir también para lenguas de similares características”.
Reconocimiento del habla para dos dialectos del occitano
En el trabajo presentado por Morcillo en Turín han participado los investigadores de Orai Igor Leturia, Ander Corral y Xabier Sarasola. El estudio “Automatic Speech Recognition for Gascon and Languedocian Variants of Occitan” se ha realizado en colaboración con Lo Congrés Permanent de la Lenga Occitana.
“Este ha sido un trabajo realizado en el contexto de las lenguas con escasos recursos, y para las dos variantes del occitano (el de Languedoc y el de Gascuña) hemos creado por primera vez reconocedores del habla (ASR), utilizando diferentes técnicas”, explica Morcillo. Se han descrito los recursos creados para la construcción de estos sistemas ASR; por ejemplo, los trabajos realizados para obtener los corpus de voz y texto más amplios posibles: “Hemos entrenado un sistema semiclásico (que mezcla la red neuronal con los modelos estadísticos) y un sistema E2E (sistema totalmente neuronal) para cada variante. Hemos evaluado cada sistema y hemos planteado algunas mejoras para el futuro”. Más adelante Lo Congrès divulgará el sistema ASR, “para que esté al alcance de todos, como nosotros tenemos aquí la plataforma Aditu para el euskera”, afirma Morcillo.