Pasar al contenido principal

Investigación

test 1

Líneas de investigación

El surgimiento de modelos lingüísticos neuronales ha cambiado el paradigma de procesamiento del lenguaje natural. Los modelos lingüísticos neuronales son entrenados con enormes volúmenes de textos, y adquieren un conocimiento genérico de las lenguas. Este conocimiento genérico puede ser reutilizado con éxito para que los modelos lingüísticos neuronales aprendan tareas concretas de procesamiento del lenguaje. Gracias a ello, no necesitan muchos datos de entrenamiento para aprender ejercicios concretos y dan muy buenos resultados. Además, es posible entrenar modelos lingüísticos multilingües con ejemplos de un sólo idioma, y el modelo obtenido de ese modo será capaz de procesar más idiomas.

Principales líneas de investigación actuales: 

  • Evaluación de modelos lingüísticos neuronales.
  • Transfer learning como herramienta de aprendizaje de tareas concretas para modelos lingüísticos neuronales.
  • Transfer learning entre idiomas.
  • Modelos lingüísticos neuronales para idiomas con pocos recursos.

Soluciones:

En la era de la digitalización, es de suma importancia tener la capacidad de extraer información estructurada de las fuentes en las que el lenguaje humano está codificado. La posibilidad de extraer este conocimiento de los descomunales volúmenes de información actuales (big data) nos ofrece nuevas oportunidades de realizar macroanálisis, proporcionar novedosas formas de consumo de información o facilitar la toma de decisiones. Investigamos tareas NLU (Natural Language Understanding) capaces de buscar clasificaciones de textos, extracción de entidades y opiniones o respuestas a preguntas. Durante los últimos años, las aproximaciones neuronales están siendo aplicadas con gran éxito en las tareas NLU, que son precisamente las técnicas que utilizamos en nuestro día a día.

Principales líneas de investigación actuales: 

  • Sistemas de búsqueda multilingüe.
  • Sistemas de preguntas y respuestas.
  • Análisis de sentimientos.
  • Extracción de metadatos semánticos.
  • Sistemas de vigilancia big data.

Soluciones:

En este contexto global y multilingüe, los sistemas de traducción automática están cobrando cada vez mayor fuerza. El gran crecimiento que han experimentado las redes neuronales durante los últimos años ha traído consigo un salto cualitativo sin precedentes en la calidad de las traducciones, y, por lo tanto, se han abierto posibilidades de desarrollar sistemas más inteligentes, con capacidad de precisar más matices en los idiomas.

Por lo tanto, en el área de la traducción automática, nuestras investigaciones tienen como objetivo el desarrollo de sistemas punteros. Para ello, utilizamos los últimos paradigmas neuronales en la creación de sistemas monolingües y multilingües. Tales paradigmas necesitan grandes cantidades de datos en la fase de entrenamiento. Por tanto, la extracción, el filtrado y la depuración de datos son fundamentales para explotar datos de calidad. Somos conscientes de que la personalización de los sistemas tiene una gran importancia a la hora de adaptarse a las necesidades del usuario; por ello, la especialización del dominio y la terminología especializada son una de nuestras prioridades. La mayoría de los sistemas actuales traducen cada frase por separado, sin tener en cuenta el contexto general en el que se encuentran. También trabajamos en traducciones a nivel de documento.
 

Principales líneas de investigación actuales:

  • Análisis del sesgo de género
  • Traducción a nivel de documento
  • Integración de terminología especializada
  • Filtrado y depuración de datos
  • Especialización de dominio
  • Traducción multilingüe

Soluciones:

Hay dos tipos de sistemas de conversación: los que persiguen el objetivo de ofrecer una conversación lo más natural posible y los que tienen el objetivo llevar a cabo órdenes u operaciones. Los primeros se utilizan en el tiempo de ocio. Los segundos, en cambio, se utilizan para ayudar a las personas en tareas concretas, como, por ejemplo, trámites administrativos, compras o respuestas a preguntas. Las empresas y las administraciones cada vez ofrecen más sistemas de conversación del segundo tipo a clientes y ciudadanos en general, para una atención de mayor calidad.

Los sistemas de conversación tienen en cuenta diferentes aspectos: la intención de los usuarios, el contexto de la conversación y la comprensión o la producción lingüística. Actualmente, las arquitecturas neuronales están siendo utilizadas con éxito en la implementación de tales componentes.

Principales líneas de investigación actuales: 

  • Detección de la intención del usuario.
  • Estrategias basadas en pocos datos de entrenamiento.
  • Transfer learning entre idiomas.

Soluciones:

El procesamiento del habla se basa en la capacidad del ordenador para el tratamiento del habla, y uno de esos tratamientos es el reconocimiento del habla (ASR o Automatic Speech Recognition).

En el área del reconocimiento del habla, investigamos en sistemas de transcripción y subtitulación automática, más allá de sistemas que ofrecen buenos resultados en buenas condiciones. Así, estamos trabajando en métodos para desarrollar sistemas ASR capaces de transcribir audios en variedades lingüísticas locales y registros informales y en sistemas que funcionen en entornos ruidosos (por ejemplo, para la interacción con máquinas de la industria 4.0 mediante el lenguaje). 

También estamos trabajando en la personalización, aportando términos, toponimia y nombres propios locales al transcriptor, para que los pueda transcribir correctamente. También trabajamos en la transcripción y subtitulación directas, muy útiles en sesiones diversas, videollamadas o cursos. Otro de nuestros objetivos es que las personas con discapacidades motoras puedan utilizar el ASR como herramienta de dictado, principalmente en el ámbito de la educación y la población infantil. Por último, también nos dedicamos a la identificación de los oradores, para poder etiquetar automáticamente los fragmentos  en los subtítulos y transcripciones.

  • Principales líneas de investigación actuales:
  • Personalización del reconocimiento del habla
  • Reconocimiento del habla en variedades locales
  • Reconocimiento del habla en registros informales
  • Reconocimiento del lengua en entornos ruidosos e industriales
  • Reconocimiento de voces infantiles
  • Sistemas encaminados al dictado (accesibilidad)
  • Transcripción y subtítulación directas
  • Identificación de oradores

Soluciones:

El procesamiento del habla se basa en la capacidad del ordenador para su tratamiento. Uno de esos tratamientos es la síntesis o creación del habla (TTS o Text-to-Speech)

Tenemos varias líneas de investigación en el área de la síntesis del lenguaje. Uno de nuestros objetivos es obtener la clonación de voces utilizando cada vez menos material, mediante sistemas multispeaker de redes neuronales. Uno de los principales retos actuales es la obtención de una síntesis del habla de gran calidad con una sola frase dicha por una persona. También estamos investigando técnicas de cross-lingual, gracias a las cuales podemos cambiar de idioma cualquier voz. Pretendemos sintetizar una voz en un idioma basándonos en unas pocas frases en otro idioma. Por otro lado, para hacer frente al sesgo de género, hemos creado un prototipo de voz de género ambiguo. Uno de nuestros retos es mejorar la calidad de esta voz. Por último, también tenemos como objetivo incorporar la emoción en los sistemas de síntesis. La mayoría de los sistemas de síntesis actuales trabajan el estilo neutro, lo que los limita en su uso para el doblaje. Pretendemos evitar la pérdida de estilo al transmitir emociones y expresividad.

Principales líneas de investigación actuales:

  • Síntesis personalizada del habla
  • Síntesis neutra del habla
  • Síntesis del habla con emociones
  • Imitación de la voz con muestras pequeñas

Soluciones:

Estos últimos años, el proceso de producción de textos esta cambiando notablemente, y está cada vez más extendido el uso de herramientas informáticas para la redacción de textos. Entre estas herramientas se encuentran los correctores automáticos, que detectan errores en los textos y proponen correcciones al usuario. Las correcciones pueden ser ortográficas, de léxico, gramáticas o de estilo. Se trata de herramientas de gran eficacia en el proceso de creación de textos, principalmente a la hora de garantizar textos de máxima calidad.

Principales líneas de investigación actuales: 

  • Corrección gramatical neuronal basada en datos sintéticos.

Soluciones:

Baliabideak

Recursos

Recursos

Modelos de lenguaje neuronales

Tecnologías del habla

Proyectos estratégicos

Traduccion automática

Recuperación y extracción de información (IR-IE)

Extracción de léxico y terminología

Semántica y ontologías

Extracción de Opiniones - Análisis de Sentimiento

Corpora

Corpus

test

No es el futuro. es Orai