Hemos desarrollado un sistema de extracción automática de información de artículos científicos sobre la COVID-19
VIGICOVID es un sistema para conseguir respuestas en la avalancha informativa sobre la COVID-19 y el SARS-CoV-2, mediante preguntas en lenguaje natural.
Investigadores e investigadoras de la UPV/EHU, la UNED y Orai hemos creado el sistema VIGICOVID, gracias al Fondo Supera COVID-19 de la CRUE. Este sistema responde a la necesidad de buscar respuestas en la avalancha de información generada por todas las investigaciones realizadas mundialmente relacionadas con la pandemia. Mediante inteligencia artificial, el sistema muestra las respuestas encontradas en un conjunto de artículos científicos, de manera ordenada, utilizando preguntas y respuestas en lenguaje natural.
La comunidad investigadora biosanitaria mundial está realizando un gran esfuerzo en la generación de conocimiento en torno a la COVID-19 y al SARS-CoV-2. Este esfuerzo se traduce en una producción ingente y muy rápida de publicaciones científicas, lo cual dificulta la consulta y el análisis de toda esa información. Por ello, resulta necesario proporcionar sistemas de información a las personas expertas y a las autoridades responsables en la toma de decisiones, que les permitan adquirir el conocimiento necesario.
Eso es, precisamente, lo que hemos investigado en el proyecto VIGICOVID investigadores e investigadoras del Centro HiTZ de la UPV/EHU, del grupo NLP & IR de la UNED y Orai NLP Teknologiak, gracias al Fondo Supera COVID-19 otorgado por la CRUE. En el proyecto, hemos creado un prototipo para extraer información mediante preguntas y respuestas en lenguaje natural de un conjunto actualizado de artículos científicos publicados por la comunidad investigadora mundial en torno a la COVID-19 y el SARS-CoV-2, bajo la coordinación del grupo de investigación de la UNED.
El paradigma de las búsquedas de información está cambiando gracias a la inteligencia artificial. Hasta ahora, para buscar información en la red, se introduce una pregunta, y la respuesta se debe buscar en los documentos que nos muestra el sistema. Sin embargo, en función del nuevo paradigma, cada vez están más extendidos los sistemas que ofrecen directamente la respuesta, sin necesidad de leer todo el documento.
En este sistema, la persona usuaria no solicita la información mediante palabras clave, sino que formula directamente una pregunta. El sistema busca las respuestas a esa pregunta en dos fases: En primer lugar, recupera los documentos que pueden contener la respuesta a la pregunta realizada, utilizando una tecnología que combina palabras clave y preguntas directas. Para eso hemos investigado arquitecturas neuronales. Hemos utilizado arquitecturas neuronales profundas alimentadas con ejemplos: Eso significa que los modelos de búsqueda y los modelos de respuesta a las preguntas se entrenan a través del aprendizaje automático profundo.
Una vez extraída la serie de documentos, se vuelven a procesar mediante un sistema de preguntas y respuestas, para así obtener respuestas concretas. Hemos construido el motor que responde a las preguntas; proporcionándole una pregunta y un documento, el motor es capaz de detectar si la respuesta se encuentra o no en el documento, y en caso afirmativo, dice exactamente dónde se encuentra.
Un prototipo fácilmente comercializable
De las técnicas y las evaluaciones que hemos analizado en nuestros experimentos, hemos llevado al prototipo aquellas que han dado mejores resultados. Hemos establecido una base tecnológica sólida, y hemos publicado varios artículos científicos al respecto. Hemos conseguido otra manera de realizar búsquedas para casos de necesidad de información urgente, que facilita el proceso de consumo de información. A nivel de investigación hemos demostrado que la tecnología propuesta funciona, y que el sistema da buenos resultados.
Nuestro resultado es un prototipo de un proyecto de investigación básica y no se trata de un producto comercial. Pero este tipo de prototipos se pueden modelar fácilmente y en poco tiempo, para poder comercializarlos y ponerlos al alcance de la sociedad.
Gracias a la inteligencia artificial se podrá disponer de instrumentos cada vez más potentes para trabajar con grandes bases de documentos, y estamos avanzando muy rápidamente en este ámbito. Y, además, todo lo que se investiga llegará fácilmente al mercado.
Referencia bibliográfica
Arantxa Otegi, Iñaki San Vicente, Xabier Saralegi, Anselmo Peñas, Borja Lozano, Eneko Agirre
Information retrieval and question answering: A case study on COVID-19 scientific literature
Knowledge-Based Systems
DOI: 10.1016/j.knosys.2021.108072