Pasar al contenido principal
Txatbota
2023 | 10 Noviembre

Estrategias para el desarrollo de chatbots utilizando pequeños conjuntos de datos

En el XXXIX Congreso Internacional de la SEPLN (Sociedad Española para el Procesamiento del Lenguaje Natural), celebrado a finales de septiembre, Orai ha presentado el artículo titulado Strategies for bilingual intent classification for small datasets scenarios. La investigadora Maddalen Lopez de Lacalle ha dado a conocer las investigaciones llevadas a cabo sobre las estrategias que pueden utilizarse para clasificar las intenciones de los usuarios del chatbot en situaciones en las que existe la posibilidad de utilizar pequeños conjuntos de datos para entrenar.

Los task-oriented chatbots o sistemas de conversación destinados a la realización de tareas tratan de realizar de forma automática las operaciones o trámites que originalmente ha solido llevar a cabo una persona. En este tipo de chatbot o asistente virtual se utilizan clasificadores de intenciones que permiten entender la intención o el deseo que se esconde detrás de la solicitud del usuario. “Supongamos que un usuario dice ‘No quiero seguir en el curso de pilates’ al chatbot o asistente que ayuda a automatizar los servicios deportivos municipales —explica la investigadora de Orai—. El clasificador de intenciones del chatbot debe clasificar el mensaje del usuario en la clase ‘Curso_baja’ para determinar el siguiente paso”.

Para entrenar a los clasificadores de intenciones se debe enseñar a realizar esta tarea concreta (clasificar la intención del usuario) a modelos lingüísticos neuronales previamente entrenados (que tienen un conocimiento general del idioma). “Para ello se necesitan datasets o conjuntos de datos con oraciones clasificadas en clases. Por cada área de uso del chatbot (servicios deportivos, reserva de vuelos...) se deben crear nuevos ejemplos clasificados en las clases correspondientes para entrenar los modelos lingüísticos en esta tarea. Además, si el asistente tiene que comprender más de un idioma, tendremos que crear ejemplos en diferentes idiomas”, explica López de Lacalle.

En este estudio, las investigadoras y los investigadores de Orai han explorado el modo de construir clasificadores de intenciones bilingües (euskera/castellano) en situaciones en las que hay muy pocos datos de entrenamiento: “En concreto, hemos analizado cómo crear automáticamente nuevos ejemplos sintéticos a partir de unos pocos ejemplos creados manualmente, y si estos ejemplos mejoran el rendimiento de los clasificadores”.

Se han elaborado dos estrategias para incrementar el número de datos para el entrenamiento, ambas basadas en la creación de paráfrasis, es decir, en decir las cosas con otras palabras: “Por un lado, hemos utilizado la backtranslation o retraducción, que se basa en la traducción automática; es decir, traducir ejemplos de una lengua (por ejemplo, euskera) a otra (castellano) y luego volver a traducirlos a la lengua inicial. Y por otro lado, hemos utilizado modelos lingüísticos entrenados para crear paráfrasis con el fin de crear paráfrasis de nuestros ejemplos”.

La investigadora ha afirmado que “nuestros experimentos han demostrado que las paráfrasis creadas mediante la estrategia de backtranslation ayudan a mejorar los resultados de los clasificadores”. Así, “es más fácil construir un clasificador de intenciones de un asistente virtual para otro ámbito de uso a partir de unos pocos datos creados manualmente. No tendremos que crear grandes conjuntos de datos de forma manual porque podemos aplicar las estrategias propuestas”, afirma Maddalen López de Lacalle.

 

Referencia bibliográfica

Maddalen López de Lacalle, Xabier Saralegi, Aitzol Saizar, Gorka Urbizu, Ander Corral
Strategies for bilingual intent classification for small datasets scenarios
SEPLN
DOI: 10.26342/2023-71-11

Asistentes inteligentes
Asistentes de conversación