Cómo gestionar la sobrecarga de información científica sobre COVID-19
Arantxa OtegiInvestigadora postdoctoral en análisis y procesamiento del lenguaje, Ixa NLP Group, Universidad del País Vasco / Euskal Herriko Unibertsitatea
Aitor SoroaProfesor agregado, IXA NLP Group, Universidad del País Vasco / Euskal Herriko Unibertsitatea
Eneko AgirreProfesor Catedrático Contratado, Ixa NLP Group, Universidad del País Vasco / Euskal Herriko Unibertsitatea
Jon Ander CamposInvestigador predoctoral, Ixa NLP Group, Universidad del País Vasco / Euskal Herriko Unibertsitatea
Disclosure statement
Arantxa Otegi recibe fondos de MINECO y Gobierno Vasco.
Aitor Soroa recibe fondos de MINECO y Gobierno Vasco.
Eneko Agirre recibe fondos de MINECO y Gobierno Vasco.
Jon Ander Campos recibe fondos de Gobierno Vasco y MECD.
Partners
Universidad del País Vasco / Euskal Herriko Unibertsitatea provides funding as a founding partner of The Conversation ES.
Desde el inicio de la crisis sanitaria provocada por la COVID-19, los científicos que luchan contra esta enfermedad están ahogados por la creciente literatura científica.
Ante esta situación, y respondiendo a un llamamiento del gobierno de los Estados Unidos, numerosos grupos de investigadores han explorado diferentes soluciones. El sistema de búsqueda de respuestas que hemos propuesto los autores de este artículo ha sido uno de los premiados por esa iniciativa.
Miles de artículos por semana
La comunidad médica y científica necesita compartir información relevante para hacer frente a la pandemia de COVID-19. Sin embargo, la cantidad de información disponible hoy día acerca del coronavirus causante de esta enfermedad es enorme.
Además, conforme pasa el tiempo y a medida que la pandemia se ha ido extendiendo por todo el mundo, el ritmo de publicación de artículos científicos sobre este tema ha ido creciendo.
Se han llegado a publicar más de 4 000 papers en una semana. Expertos como el virólogo Timothy Sheahan, que trabaja en la Universidad de Carolina del Norte, han reconocido la dificultad de estar al corriente de todo lo que se publica.
Llamamiento a los investigadores de IA
Ante esta situación, y a petición de la Oficina de Política de Ciencia y Tecnología de la Casa Blanca, varios grupos de investigación destacados pusieron a disposición de la comunidad científica mundial una colección de artículos científicos: COVID-19 Open Research Dataset (CORD-19), con más de 63 000 documentos.
Además, se hizo un llamamiento a los investigadores de todo el mundo para que aplicaran las últimas técnicas en inteligencia artificial y procesamiento del lenguaje. El objetivo era conseguir que los científicos que luchan contra la enfermedad COVID-19 puedan encontrar información relevante y precisa en las publicaciones.
Los organizadores pusieron en marcha una competición a través de la plataforma Kaggle. En una primera fase se definieron 10 tareas. En cada una de ellas se enumeraron las preguntas clave de un tema diferente relacionado con la COVID-19. Estas preguntas fueron creadas basándose, entre otros, en el plan de acciones de investigación y desarrollo de la Organización Mundial de la Salud.
Los investigadores participantes han puesto en esta plataforma los sistemas de procesamiento de datos y texto desarrollados para esta competición, de manera que están disponibles para expertos de todo el mundo.
Un sistema que responde a las preguntas
El grupo de investigación Ixa participamos en esta competición. Para ello desarrollamos un sistema que, analizando los mencionados artículos científicos, busca respuestas a las preguntas planteadas por los expertos.
Nuestro sistema ganó una de las 10 tareas de la primera fase. Concretamente, ha sido seleccionado como el sistema que mejor ha respondido al cuestionario sobre el tema ¿Qué sabemos sobre diagnóstico y vigilancia?
En la imagen que sigue a este párrafo se puede observar una de las preguntas de este tema y lo que el sistema responde (en negrita), así como información de la publicación y contexto donde se ha encontrado la respuesta (en naranja oscuro la respuesta, en naranja más claro la información más relevante).
Respuestas del sistema dadas a una de las preguntas del tema What do we know about diagnostics and surveillance?
Todas las preguntas y las respuestas dadas por el sistema pueden verse aquí y el código se puede consultar junto con su descripción técnica.
¿Cómo se realiza la búsqueda?
Ya hemos visto a qué tipo de preguntas responde este exitoso sistema de búsqueda de respuestas. Pero ¿cómo busca el sistema estas respuestas entre tantos artículos científicos? El proceso de búsqueda de respuestas para una pregunta concreta se divide en 3 fases principales.
En una primera fase se seleccionan de toda la colección de artículos solamente los que están relacionados con la enfermedad COVID-19, ya que en esta colección también se incluyen artículos sobre otros coronavirus distintos al COVID-19, como SARS-CoV y MERS. Para realizar esta selección, se analiza el título y resumen de cada trabajo para ver si contienen palabras utilizadas como sinónimo de la COVID-19 por la comunidad científica.
En la siguiente fase un sistema de recuperación de información extrae unos pocos artículos de entre los previamente seleccionados. El sistema es capaz de discriminar los artículos que potencialmente contienen la repuesta a la pregunta formulada por el usuario. Para ello, primero se crea una estructura de datos llamada índice que guarda una referencia del artículo donde aparece cada palabra. Esta estructura de datos permite buscar información de forma muy eficaz.
Una vez creado el índice, se utiliza el algoritmo de búsqueda BM25 para encontrar los artículos más relevantes para cada pregunta. Dicho algoritmo utiliza el índice para buscar en qué artículos se encuentra cada palabra de la pregunta. BM25 asigna una puntuación que mide la relevancia de cada uno de los artículos para cada pregunta. Para ello tiene en cuenta diferentes métricas como el número de apariciones y la longitud de los artículos. En esta fase se seleccionan los 20 artículos con mayor puntuación.
En la fase final, la búsqueda de respuestas se hace sobre los 20 artículos seleccionados. Para ello se aplican técnicas avanzadas basadas en redes neuronales de inteligencia artificial. En concreto, estas técnicas emplean el modelo lingüístico denominado BERT (Bidirectional Encoder Representations from Transformers).
BERT, utilizado en el buscador de Google, es capaz de crear una representación contextual para cada palabra, que depende también de las que le rodean. Las palabras y expresiones que tienen un significado parecido estarán más cerca entre ellas que las que no lo tienen, como si de un mapa se tratara.
Para adaptar este modelo lingüístico y darle la capacidad de responder preguntas se utilizaron 83 000 preguntas y respuestas anotadas por humanos. Es importante puntualizar que estas 83 000 preguntas no tienen relación con la enfermedad y tratan sobre temas generales. Por ello, el sistema podría ser utilizado también para responder preguntas en otros dominios y en un futuro podría adaptarse mejor al tema.
Tras aplicar este último sistema de búsqueda de respuesta, el usuario que formula la pregunta recibe cinco artículos de los seleccionados en la segunda fase y en cada uno se resaltan las tres respuestas más probables.
Limitamos el número de artículos a cinco para no sobrecargar al usuario con demasiada información. Además, cabe la posibilidad de que no todos los 20 artículos de la segunda fase contengan la respuesta deseada y por ello también son descartados.
Un sistema útil para los científicos
Este sistema de búsqueda de respuestas es de gran ayuda para buscar de una manera rápida y cómoda respuestas a las preguntas prioritarias de los expertos sobre la COVID-19, disminuyendo el tiempo necesario para recabar información.
Por ejemplo, el programa puede responder a preguntas sobre la historia del coronavirus, la transmisión y diagnóstico, las medidas de prevención en el contacto entre seres humanos y animales y las lecciones de estudios epidemiológicos previos.
Los últimos avances en el uso de la inteligencia artificial para el procesamiento del lenguaje han permitido desarrollar sistemas avanzados de acceso a la información. En un trabajo relacionado de nuestro grupo hemos demostrado que pueden llegar a tener conversaciones sobre temas especializados.
Original THE CONVERSATION
The Conversation is a nonprofit organization working for the public good through fact- and research-based journalism. Nearly half of our budget comes from the support of universities, and higher education budgets are under unprecedented strain. Your gift can help us keep doing our important work and reach more people. Thank you.