Nuevos modelos neuronales para la transformación de las tecnologías lingüísticas
-
El centro HiTZ de la UPV/EHU, Orai y Vicomtech han creado modelos lingüísticos neuronales que utilizan las últimas técnicas de inteligencia artificial.
-
Los avances logrados en el proyecto DeepText serán un gran impulso para las aplicaciones basadas en el procesamiento lingüístico del euskera y el castellano.
El personal investigador del centro HiTZ de la Universidad del País Vasco, Orai NLP y Vicomtech ha trabajado en el proyecto DeepText, que está liderado por el centro HiTZ, durante dos años. Su objetivo ha sido crear una nueva generación de modelos lingüísticos neuronales de inteligencia artificial que transformen las tecnologías lingüísticas de la industria de Euskal Herria. La producción científica y el desarrollo tecnológico en general no han tenido tan en cuenta el castellano como el inglés y mucho menos el euskera, por lo que hasta el momento no ha habido grandes oportunidades de transformar el sector de las tecnologías lingüísticas y de la inteligencia artificial mediante el desarrollo del procesamiento del lenguaje natural y sus servicios asociados.
Para mejorar la situación del euskera y del castellano en esta materia, han creado modelos lingüísticos neuronales de última generación para el euskera y el castellano (en el caso del euskera han sido los primeros), así como modelos lingüísticos neuronales plurilingües (que engloban el euskera, el castellano, el francés y el inglés).
“El procesamiento del lenguaje natural tiene como objetivo que las máquinas sean capaces de comprender y crear nuestro lenguaje para tener la capacidad de realizar ciertas tareas”, según los investigadores del consorcio. Las técnicas utilizadas hasta ahora para este fin han quedado obsoletas y ahora se utilizan sistemas basados en modelos lingüísticos neuronales. En los últimos años se está produciendo un cambio de paradigma totalmente disruptivo en el procesamiento del lenguaje natural: “Se entrenan modelos lingüísticos neuronales genéricos utilizando corpus de texto gigantes para que tengan un conocimiento general del lenguaje y luego se adecuan para que sean capaces de realizar una determinada tarea (hacer búsquedas, clasificar temas de textos, detectar sentimientos en textos, hacer resúmenes automáticos, etc.)”, explican.
Las lenguas de escasos recursos tienen problemas a la hora de formar corpus tan grandes, pero en este proyecto se ha completado el mayor corpus para el euskera: Un corpus de 350 millones de palabras. Así, utilizando este corpus y el corpus euscrawl (de 288 millones de palabras y creado por IXA Taldea), han creado los primeros modelos lingüísticos neuronales para el euskera, utilizando el nuevo paradigma, y los han entrenado para realizar diferentes tareas para su implantación en nuevos sistemas.
Los modelos lingüísticos neuronales plurilingües se utilizan para establecer herramientas para lenguas de escasos recursos: Según explica el personal investigador: “Hay alrededor de 7.000 lenguas en el mundo, la mayoría de las cuales son lenguas de escasos recursos. Debido a su escaso corpus y material digital, tienen dificultades a la hora crear ejemplos de entrenamiento. El euskera se podría incluir también en este grupo. En estos casos, la utilización de modelos lingüísticos plurilingües es una alternativa eficaz (son capaces de comprender textos de diferentes lenguas e incluso de lenguas de escasos recursos). Esta base se entrena con ejemplos de una lengua grande, como el inglés, y luego se prueba con datos en euskera para ver qué resultados da”. El personal investigador admite que esta técnica, denominada transfer learning, no proporciona resultados «óptimos», “pero sí resultados muy interesantes para, por ejemplo, realizar búsquedas por pregunta-respuesta”.
No solo para el euskera
Además, se ha creado un entorno de evaluación para medir la capacidad de comprensión lingüística de los modelos lingüísticos neuronales, imprescindible para llevar a cabo investigaciones en este campo. “Este entorno de evaluación engloba una serie de tareas lingüísticas (detección de nombres propios, detección de sentimientos, clasificación temática, resolución de correferencias, respuesta a preguntas...). Hemos creado el entorno para evaluar el euskera y el castellano”, explican. El personal investigador otorga especial importancia al apartado de evaluación del euskera (BasqueGLUE), que es el primero para este idioma.
En su opinión, “hemos dado un paso imprescindible en el desarrollo de las tecnologías lingüísticas de Euskal Herria. En estos dos años hemos investigado la base tecnológica necesaria para el avance de las tecnologías lingüísticas para el euskera, el castellano, el inglés y otras lenguas de escasos recursos. Hoy en día, los modelos lingüísticos neuronales son necesarios para desarrollar productos de tecnologías lingüísticas y obtener los mejores resultados. Hasta ahora no se había creado un modelo así para el euskera. Se ha estudiado el uso de modelos lingüísticos neuronales y se han adecuado para realizar tareas concretas, y se ha aprendido la transferencia entre lenguas y entre dominios (literatura, medicina).
Es evidente la importancia de contar con capacidades científico-tecnológicas independientes para mejorar la competitividad de la industria vasca y el desarrollo de tecnologías clave. Para ello es urgente continuar la investigación fundamental, idear técnicas innovadoras basadas en modelos neuronales y experimentar con ellas. El personal investigador está con muchas ganas de seguir en este camino y espera que tenga su reflejo en las políticas públicas y los fondos para el impulso de proyectos de I+D.
Información adicional
El proyecto Deeptext ha sido liderado por Aitor Soroa, de IXA Taldea (centro HiTZ) y ha contado con la participación de personal investigador de Orai NLP Teknologiak y del centro tecnológico Vicomtech. Ha contado con una subvención del programa Elkartek del Gobierno Vasco. Aquí se muestran todos los recursos trabajados en el proyecto.