Estudios para lograr modelos neuronales competitivos en lenguas y contextos con recursos limitados
-
Una de las líneas de investigación de Orai es la búsqueda de vías para potenciar el procesamiento del lenguaje natural en entornos con menos recursos.
-
Dos artículos científicos elaborados por Orai en el marco de un proyecto Elkartek han sido aceptados en el congreso internacional ACL23, sobre el procesamiento del lenguaje natural, en Toronto.
Los modelos de lenguaje neuronales son la base para trabajar con las tecnologías de la lengua, es decir, modelos computacionales para comprender y crear automáticamente una lengua. Gracias a dichos modelos se consigue, por ejemplo, hacer resúmenes, corregir textos, elaborar sistemas de búsqueda por pregunta-respuesta, crear chatbots, analizar sentimientos, extraer temas de textos, etc.
En los últimos años, los modelos de lenguaje neuronales previamente entrenados se han convertido en la clave para abordar y resolver todas las cuestiones relacionadas con el procesamiento del lenguaje. Sin embargo, su creación requiere un volumen de datos gigante con el que solo cuentan algunos idiomas. Además, los modelos de lenguaje grandes consumen mucha energía, y la tendencia que se ha venido observando en los últimos tiempos de ampliar continuamente los modelos es prácticamente inviable para muchos profesionales dedicados al procesamiento del lenguaje natural (PLN), ya que se requieren cantidades de datos y redes masivos, además de una gran capacidad de computación, lo cual no está al alcance ni de todos los idiomas ni de los centros de investigación con una capacidad computacional limitada.
En este sentido, los profesionales de Orai NLP Teknologiak están investigando, entre otras cosas, cómo utilizar los modelos de lenguaje neuronales con lenguas y en entornos que no disponen de semejante cantidad de datos ni de tanta capacidad computacional. En concreto, Gorka Urbizu, en el congreso ACL23 organizado por la Association for Computational Linguistics (Asociación de Lingüística Computacional) en Toronto, ha realizado una breve presentación de los artículos relativos a dos trabajos de investigación llevados a cabo para buscar soluciones a esta problemática (los artículos se han publicado aquí). Dichas investigaciones se han realizado en el marco del proyecto ICL4LANG de la convocatoria Elkartek, puesto en marcha en colaboración con Tecnalia y el centro HiTZ (y liderado por Xabier Saralegi, responsable de Tecnologías NLP de Orai), con el fin de estudiar los modelos de lenguaje con una menor capacidad de computación y menos datos.
Utilizar la traducción automática para entrenar modelos neuronales
Gorka Urbizu explica que, por un lado, han analizado “la viabilidad de utilizar el texto generado mediante la traducción automática para el entrenamiento de los modelos de lenguaje”. Para ver si los modelos obtenidos traduciendo los contenidos de una lengua grande a una lengua más pequeña son válidos, se han traducido al euskera corpus gigantes de castellano, con los que se han entrenado diferentes modelos de lenguaje combinando, entre otros, textos nativos en euskera. “Hemos demostrado que cuando existe un sistema de traducción sólido, es posible construir un modelo de lenguaje sólido a partir de textos traducidos. Además, hemos visto que tanto los temas como el contexto geográfico y cultural de los textos traducidos deben ser tenidos en cuenta de alguna manera para que coincidan con los de los textos nativos”, ha señalado.
Los investigadores afirman que hasta ahora “no ha sido un método habitual utilizar la traducción automática para entrenar modelos de lenguaje. Y hay muchos idiomas en la misma situación que el euskera, es decir, idiomas que, pese a contar con un buen sistema de traducción automática, disponen de pocos textos o datos necesarios para entrenar los modelos”. Por tanto, este estudio abre un camino a las lenguas y a los investigadores con pocos datos para lograr un modelo de lenguaje competitivo.
Volumen óptimo de datos y parámetros que se deben utilizar con computación de recursos limitados
A medida que los modelos de lenguaje neuronales aumentan, algunos estudios han establecido relaciones óptimas entre la cantidad de parámetros que debe tener el modelo, el tamaño del corpus de datos y los costes de computación, “pero se basan en modelos de lenguaje de gran escala. Por lo tanto, hemos querido analizar cuál es la combinación óptima cuando existen pocos datos y escasos recursos de computación, si hay que utilizar modelos más o menos grandes y en qué condiciones”, explica Urbizu.
Para responder a esta cuestión, han creado diferentes modelos de lenguaje de euskera, castellano, swahili y finés, a partir de pequeños corpus de diferentes tamaños (de 5 a 125 millones de palabras), y con cada uno de ellos han entrenado pequeños modelos de lenguaje de diferentes tamaños (de 16 a 124 millones de parámetros). “De los resultados se deduce que las proporciones óptimas establecidas en otros estudios no son exactas en entornos de recursos limitados y que, en proporción, el número óptimo de datos es superior al previsto”, afirma el investigador de Orai. En este estudio han colaborado investigadores del centro HiTZ de la UPV/EHU.