Pasar al contenido principal
Llama-eus-8B
2024 | 11 Septiembre

Nuevo modelo neuronal para la inteligencia artificial en euskera

  • Orai ha desarrollado Llama-eus-8B: un nuevo modelo neuronal para sistemas de inteligencia artificial que requieren la comprensión y generación del euskera escrito.
  • El modelo será utilizado para desarrollar aplicaciones como chatbots, traductores automáticos, correctores gramaticales, buscadores, sistemas para la generación de contenidos...

Las investigaciones para avanzar en la inteligencia artificial se mueven a gran velocidad. El procesamiento del lenguaje natural plantea obstáculos singulares para las lenguas con pocos recursos, pues no disponen un volumen de textos o datos ni medios computacionales suficientes para avanzar al ritmo en que lo hacen las lenguas mayoritarias. En consecuencia, es preciso buscar estrategias diferentes que posibiliten la aplicación al euskera de las herramientas de inteligencia artificial que se usan en las lenguas mayoritarias, y en esa labor de búsqueda la comunidad investigadora vasca está logrando grandes avances.

Orai NLP Teknologiak, centro de inteligencia artificial de Elhuyar, ha desarrollado Llama-eus-8B, un nuevo modelo de lenguaje neuronal (LLM, Large Language Model) diseñado para facilitar el desarrollo de sistemas de inteligencia artificial que requieren la comprensión y generación del euskera escrito. Se trata de un modelo fundacional, es decir, es el tipo de modelo que se utiliza como base de la inteligencia artificial generativa (o de conocidos chatbots). Llama-eus-8B es el más avanzado para el euskera dentro del ámbito de los modelos fundacionales considerados ligeros (de menos de 10 mil millones de parámetros).

Llama-eus-8B se distribuye de forma libre, lo que facilitará el desarrollo e investigación de tecnologías en euskera tanto en el ámbito académico como industrial. Este modelo se ha desarrollado dentro del proyecto de investigación BasqueLLM, financiado parcialmente por la Diputación Foral de Gipuzkoa a través del Programa de Red Guipuzcoana de Ciencia, Tecnología e Innovación.

Enlace para la descarga del modelo y explicación técnica sobre su desarrollo y evaluación: https://huggingface.co/orai-nlp/Llama-eus-8B

Orai utilizará Llama-eus-8B como base para desarrollar aplicaciones para tareas como corrección gramatical de textos, generación de contenido, creación de materiales educativos, buscadores, chatbots y traducción automática; todas ellas tareas que requieren un conocimiento lingüístico profundo del euskera.

Según Xabier Saralegi, investigador principal del proyecto BasqueLLM, “actualmente estamos experimentando con estrategias alternativas de entrenamiento para poder mejorar los resultados sin requerir mayores colecciones de textos en euskera. Estrategias que mejoren la transferencia de las capacidades aprendidas en inglés al euskera.”

Transferir al euskera las capacidades aprendidas a partir de millones de textos en inglés

Para desarrollar Llama-eus-8B se ha utilizado como modelo base el más reciente publicado por Meta, Llama3.1-8B, un modelo de código abierto de 8 mil millones de parámetros. Este modelo de lenguaje neuronal ha sido generado mediante algoritmos de aprendizaje automático utilizando una enorme colección de textos (15 billones de palabras) mayoritariamente en inglés, mostrándose muy eficiente en ese idioma (y en algunos otros idiomas mayoritarios) para automatizar tareas que requieren capacidades lingüísticas (traducción automática, resumen automático, escritura creativa, sistemas de diálogo…). Sin embargo, su rendimiento en euskera es muy limitado.

Debido a la falta de grandes colecciones de textos en euskera y los grandes requisitos computacionales necesarios para un entrenamiento desde cero de un modelo de estas características para euskera, “hemos partido de una base sólida como Llama3.1-8B. La estrategia ha consistido en transferir las capacidades aprendidas de los millones de textos en inglés al euskera mediante algoritmos de aprendizaje automático y utilizando un corpus de textos en euskera”, explica el responsable de las tecnologías de la lengua de Orai, Xabier Saralegi.

Para ello, se ha utilizado el corpus ZelaiHandi, recopilado por Orai hace unos meses, que incluye únicamente contenido en euskera con licencia libre y de gran calidad. ZelaiHandi es el mayor conjunto de datos de licencia libre en euskera que existe actualmente. Para mejorar la transferencia de capacidades entre el inglés y el euskera, se han combinado los textos de ZelaiHandi con textos en inglés. Así, “hemos logrado que el modelo mantenga su conocimiento en inglés mientras mejora su comprensión del euskera reutilizando eficientemente lo aprendido inicialmente para el inglés”, añade el investigador de Orai Ander Corral. El entrenamiento del modelo se ha llevado a cabo utilizando el sistema Hyperion del centro de supercomputación del Donostia International Physics Center (DIPC).

El modelo ha sido evaluado en un amplio banco de pruebas que abarca 11 tareas, las cuales exigen competencias lingüísticas tanto formales (manejo correcto de la gramática y el vocabulario) como funcionales (capacidad de comprender y utilizar el lenguaje en contextos reales): exámenes escolares, resolución de problemas, cuestionarios sobre distintas materias, análisis de opiniones…

Los resultados de la evaluación indican que Llama-eus-8B obtiene el mejor desempeño entre los modelos fundacionales ligeros (de menos de 10 mil millones de parámetros) disponibles actualmente, convirtiéndose así en un recurso valioso para el desarrollo de sistemas de inteligencia artificial que requieran habilidades lingüísticas en euskera. En algunas tareas ofrece resultados competitivos frente a modelos mucho mayores. En cualquier caso, pese a que los resultados se aproximan cada vez más a los obtenidos en inglés, el rendimiento en euskera sigue siendo notablemente inferior al del inglés.

(Imagen: Wes Cockx & Google DeepMind / Better Images of AI / AI large language models / CC-BY 4.0)

Modelos lingüísticos neuronales