Mejora continua de los sistemas de reconocimiento del habla
En el marco del proyecto europeo SERMAS, hemos desarrollado un sistema de reconocimiento de euskera, castellano e inglés en ambientes ruidosos, capaz de diferenciar a los hablantes
Una de las principales líneas de Orai es el reconocimiento del habla, y por ello investiga continuamente la tecnología ASR (Automatic Speech Recognition), para seguir mejorando. El reconocimiento del habla ofrece múltiples posibilidades: comunicación oral con asistentes virtuales, subtitulación automática de vídeos, transcripción de conferencias, desarrollo de herramientas de apoyo a la lectura… Dentro del proyecto europeo SERMAS, Orai está desarrollando un sistema que funcionará en cinco lenguas, servirá para entornos ruidosos y será capaz de diferenciar a los hablantes
El proyecto SERMAS (Socially-acceptable Extended Reality Models and Systems) es un proyecto de investigación e innovación financiado con los fondos del programa Horizon Europe y liderado por diversos agentes. Su objetivo es desarrollar modelos y sistemas de realidad extendida (XR) socialmente aceptables. Los sistemas de realidad extendida engloban todas las tecnologías inmersivas que combinan el mundo físico con el digital, incluidas la realidad aumentada, la realidad virtual y la realidad mixta.
El objetivo de SERMAS es construir asistentes inteligentes o virtuales avanzados para diversos ámbitos, mediante la investigación y el desarrollo de inteligencia artificial de última generación. En el marco del proyecto SERMAS, Orai se encuentra inmerso en el subproyecto LANGSWITCH (Multilingual Automatic Speech Recognition in Noisy Environments).
“Estamos creando una tecnología de reconocimiento de voz en cinco idiomas (euskera, castellano, francés, inglés e italiano), desarrollada para poder utilizarla en ambientes de mucho ruido y para distinguir a los hablantes. Estos reconocedores de habla podrán aplicarse en los sistemas de asistentes virtuales, avatares, robots, robots colaborativos y de realidad aumentada para facilitar la interacción hombre-máquina. Además, permitirá aumentar el nivel de personalización valiéndose de la voz, gracias a un sistema de diferenciación de personas usuarias. Por ejemplo, se podrá tener en cuenta el historial de uso de la máquina o las preferencias de una persona usuaria concreta”, explica Iñigo Morcillo, investigador de Orai.
En la primera fase, Orai ha validado el sistema ASR para el inglés. El resultado ha sido muy satisfactorio, según ha declarado Igor Leturia, responsable de tecnologías de habla de Orai: “Hemos conseguido mejorar el modelo Whisper” (Whisper es un modelo de aprendizaje automático para el reconocimiento y la transcripción de voz creado por OpenAI). Por otro lado, el equipo de Orai ha puesto a disposición del proyecto SERMAS este sistema ASR a través de una API o de una interfaz de programación de aplicaciones.
En la segunda fase del proyecto, el equipo de Orai ha desarrollado los sistemas de reconocimiento para el euskera y el español para entornos ruidosos. “En la tercera fase hemos desarrollado un sistema para diferenciar los hablantes. Se trata de un sistema para saber si hay un cambio de usuario en los agentes virtuales o quién habla en un momento dado entre diferentes usuarios posibles, y funciona en varios idiomas —dice Leturia—. Ahora hemos entrado en la cuarta fase, en la que desarrollaremos el sistema de reconocimiento de habla para entornos ruidosos también para el francés y el italiano, para completarlo”. El resultado final, por tanto, será un sistema ASR que funcionará en cinco idiomas (eu, es, fr, it, en) y será válido para ambientes ruidosos, además de ser capaz de distinguir a los hablantes. Todo ello se pondrá a disposición de los sistemas de SERMAS.
Información adicional
El consorcio de SERMAS está formado por la Università Degli Studi di Modena e Reggio Emilia (UNIMORE, Italia), la Technische Universität Darmstadt (Alemania), el King’s College London (Reino Unido) y la University of Applied Sciences and Arts of Southern Switzerland (SUPSI, Suiza), además de Deutsche Welle (servicio de radiodifusión de Alemania), Poste Italiane (servicio postal de Italia), F6S (red mundial que ayuda a entidades del sector público de todo el mundo a promover, comunicar y difundir proyectos técnicos y de investigación) y Spindox Labs (centro de innovación de Trento, Italia, dedicado a la exploración tecnológica y a la creación de prototipos). Orai ha entrado en el proyecto a través de una convocatoria del consorcio SERMAS para atraer a organizaciones innovadoras, nuevas empresas de tecnología punta, PYMEs y agentes industriales.