Sistemas de reconocimiento de voz para entornos ruidosos
Orai mejora su tecnología de ASR en el marco del proyecto europeo SERMAS
El proyecto SERMAS (Socially-Acceptable Extended Reality Models and Systems) es un proyecto de investigación e innovación, financiado con fondos del programa Horizon Europe, que pretende sentar las bases de la próxima generación de sistemas de realidad extendida socialmente aceptables, analizando cómo las personas se relacionan e interactúan con la tecnología. Los sistemas de realidad extendida engloban todas las tecnologías inmersivas que combinan el mundo físico con el digital, incluidas la realidad aumentada, la realidad virtual y la realidad mixta.
El objetivo de SERMAS es construir asistentes inteligentes o virtuales avanzados para diversos ámbitos, mediante la investigación y el desarrollo de inteligencia artificial de última generación. El cometido de Orai en el proyecto es desarrollar y poner a su disposición una tecnología de reconocimiento del habla en cinco lenguas (euskera, español, francés, inglés e italiano), que sea válido para ambientes ruidosos y que diferencie los distintos hablantes.
En una primera fase, Orai ha validado un sistema ASR (Automatic Speech Recognition) para el inglés. Se trata de un sistema de reconocimiento de voz desarrollado para ambientes con ruido intenso. El sistema desarrollado en el centro ha dado muy buenos resultados: “De hecho, hemos conseguido mejorar los resultados obtenidos con el modelo Whisper (un modelo de aprendizaje automático para el reconocimiento y la transcripción de voz creado por OpenAI)”, afirma Igor Leturia, responsable de las tecnologías del habla de Orai.
“Cuando la relación entre la señal (la voz) y el ruido es de 10 dB se considera que es un ruido ambiental alto; cuando esta relación es de 0 dB la voz y el ruido tienen el mismo volumen”, explica. El grupo de investigación ha reportado “una tasa de error del 5 % a 10 y 8 dB. En el caso de 5 y 0 dB, aunque los resultados son también buenos, la tasa de error empeora ligeramente”. Leturia se muestra satisfecho “porque, además, los resultados obtenidos con audios sin ruido de fondo no han empeorado, y eso es importante”. Por otra parte, el grupo de Orai ha puesto a disposición del proyecto SERMAS este sistema ASR mediante una API (o una interfaz de programación de aplicaciones).
En una segunda fase del proyecto, el equipo de Orai trabajará con el fin de desarrollar los sistemas de reconocimiento para el euskera y el español para entornos ruidosos.
Información complementaria
El consorcio de SERMAS está formado por la Università Degli Studi di Modena e Reggio Emilia (UNIMORE, Italia), la Technische Universitat Darmstadt (Alemania), el King’s College London (Reino Unido) y la University of Applied Sciences and Arts of Southern Switzerland (SUPSI, Suiza), además de Deutsche Welle (servicio de radiodifusión de Alemania), Poste Italiane (servicio postal de Italia), F6S (red mundial que ayuda a entidades del sector público de todo el mundo a promover, comunicar y difundir proyectos técnicos y de investigación) y Spindox Labs (centro de innovación dedicado a la exploración tecnológica y la creación de prototipos de Trento, Italia).
Orai participa en el proyecto tras concurrir a una de las convocatorias competitivas del proyecto dirigidas a atraer entidades innovadoras, nuevas empresas de alta tecnología, PYMEs y agentes industriales con el fin de desarrollar, desplegar y validar soluciones y tecnologías en realidad extendida.