Lectura automática a escala: aprendizaje de transferencia para grandes corpus de texto

Esta publicación fue escrita por Anusua Trivedi, científica de datos sénior en Microsoft.

Esta publicación se basa en la Blog del MRC donde discutimos cómo la comprensión de lectura automática (MRC) puede ayudarnos a «transferir aprender» cualquier texto. En esta publicación, presentamos la noción y la necesidad de la lectura automática a escala y del aprendizaje por transferencia en grandes corpus de texto.

Introducción

La lectura automática para responder preguntas se ha convertido en un banco de pruebas importante para evaluar qué tan bien los sistemas informáticos entienden el lenguaje humano. También está demostrando ser una tecnología crucial para aplicaciones como motores de búsqueda y sistemas de diálogo. La comunidad de investigación ha creado recientemente una multitud de conjuntos de datos a gran escala sobre fuentes de texto que incluyen:

  • Wikipedia (WikiReading, SQuAD, WikiHop).
  • Noticias y artículos de interés periodístico (CNN/Daily Mail, NewsQA, RACE).
  • Historias ficticias (MCTest, CBT, NarrativeQA).
  • Fuentes web generales (MS MARCO, TriviaQA, SearchQA).

Estos nuevos conjuntos de datos, a su vez, han inspirado una gama aún más amplia de nuevos sistemas de respuesta a preguntas.

En el Publicación de blog de MRC, entrenamos y probamos diferentes algoritmos MRC en estos grandes conjuntos de datos. Pudimos transferir correctamente las excepciones de texto más pequeño utilizando estos algoritmos MRC preentrenados. Sin embargo, cuando intentamos crear un sistema de control de calidad para el Corpus de libros de Gutenberg (solo en inglés) con estos modelos MRC preentrenados, los algoritmos fallaron. MRC generalmente funciona en excepciones de texto o documentos, pero falla para corpus de texto más grandes. Esto nos lleva a un concepto más nuevo: lectura automática a escala (MRS). La construcción de máquinas que puedan realizar la comprensión de lectura automática a escala sería de gran interés para las empresas.

Lectura automática a escala (MRS)

En lugar de centrarse solo en extractos de texto más pequeños, Danqi Chen et al. se le ocurrió una solución a un problema mucho mayor que es la lectura automática a escala. Para llevar a cabo la tarea de leer Wikipedia para responder preguntas de dominio abierto, combinaron un componente de búsqueda basado en hash de bigramas y coincidencias TF-IDF con un modelo de red neuronal recurrente de múltiples capas entrenado para detectar respuestas en párrafos de Wikipedia.

MRC se trata de responder una consulta sobre un párrafo de contexto dado. Los algoritmos de MRC normalmente asumen que un fragmento breve de texto relevante ya está identificado y entregado al modelo, lo cual no es realista para construir un sistema de control de calidad de dominio abierto.

En marcado contraste, los métodos que utilizan la recuperación de información sobre documentos deben emplear la búsqueda como parte integral de la solución.

MRS logra un equilibrio entre los dos enfoques. Se enfoca en mantener simultáneamente el desafío de la comprensión de la máquina, que requiere una comprensión profunda del texto, mientras se mantiene la restricción realista de buscar en un gran recurso abierto.

¿Por qué MRS es importante para las empresas?

La adopción de chatbots empresariales ha aumentado rápidamente en los últimos tiempos. Para avanzar aún más en estos escenarios, la investigación y la industria se han vuelto hacia enfoques de IA conversacional, especialmente en casos de uso como la banca, los seguros y las telecomunicaciones, donde hay grandes corpus de registros de texto involucrados.

Uno de los principales desafíos para la IA conversacional es comprender oraciones complejas del habla humana de la misma manera que lo hacen los humanos. El desafío se vuelve más complejo cuando necesitamos hacer esto en grandes volúmenes de texto. MRS puede abordar estas dos preocupaciones donde puede responder preguntas objetivas de un gran corpus con alta precisión. Dichos enfoques se pueden utilizar en aplicaciones del mundo real como el servicio al cliente.

En esta publicación, queremos evaluar el enfoque MRS para resolver Capacidad automática de control de calidad en diferentes corpus grandes.

Entrenamiento MRS – Modelo DrQA

DrQA es un sistema de comprensión lectora aplicado a la respuesta a preguntas de dominio abierto. DrQA está específicamente dirigido a la tarea de lectura automática a escala. En este escenario, estamos buscando una respuesta a una pregunta en un corpus potencialmente muy grande de documentos no estructurados (que pueden no ser redundantes). Por lo tanto, el sistema debe combinar los desafíos de la recuperación de documentos (es decir, encontrar documentos relevantes) con la comprensión automática del texto (identificar las respuestas de esos documentos).

Utilizamos una máquina virtual de aprendizaje profundo (DLVM) como entorno informático con dos bibliotecas NVIDIA Tesla P100 GPU, CUDA y cuDNN. La DLVM es una variante especialmente configurada de la máquina virtual de ciencia de datos (DSVM) que facilita el uso de instancias de VM basadas en GPU para entrenar modelos de aprendizaje profundo. Es compatible con Windows 2016 y la máquina virtual de ciencia de datos de Ubuntu. Comparte las mismas imágenes centrales de VM y, por lo tanto, el mismo conjunto de herramientas completo que DSVM, pero está configurado para facilitar el aprendizaje profundo. Todos los experimentos se realizaron en un DLVM de Linux con dos GPU NVIDIA Tesla P100. Usamos el backend de PyTorch para construir los modelos. Pip instalamos todas las dependencias en el entorno DLVM.

bifurcamos el Investigación de Facebook GitHub para nuestro trabajo de blog y entrenamos el modelo DrQA en el conjunto de datos SQUAD. Usamos el modelo MRS pre-entrenado para evaluar nuestros grandes corpus de Gutenberg usando técnicas de aprendizaje por transferencia.

Corpus infantil de Gutenberg

Creamos un corpus de Gutenberg que consta de unos 36.000 libros en inglés. Luego creamos un subconjunto del corpus de Gutenberg que consta de 528 libros para niños.

Preprocesamiento del conjunto de datos de Gutenberg de los niños:

  • Descargue libros con filtro (por ejemplo, niños, cuentos de hadas, etc.).
  • Limpia los libros descargados.
  • Extraiga datos de texto del contenido del libro.

¿Cómo crear un corpus personalizado para que funcione DrQA?

Seguimos las instrucciones disponibles. aquí para crear un recuperador de documentos compatible para los libros infantiles de Gutenberg.

Para ejecutar el modelo DrQA:

  • Inserte una consulta en la interfaz de usuario y haga clic en el botón de búsqueda.
  • Esto llama al servidor de demostración (servidor matraz que se ejecuta en el backend).
  • El código de demostración inicia la canalización DrQA.
  • Se explican los componentes de canalización de DrQA aquí.
  • La pregunta está tokenizada.
  • En función de la pregunta tokenizada, el recuperador de documentos utiliza hash Bigram + coincidencia TF-IDF para hacer coincidir la mayoría de los documentos.
  • Recuperamos los 3 principales documentos coincidentes.
  • A continuación, se inicia el Lector de documentos (un RNN multicapa) para recuperar las respuestas del documento.
  • Usamos un modelo preentrenado en el conjunto de datos SQUAD.
  • Transferimos el aprendizaje en el conjunto de datos Children’s Gutenberg. Puede descargar el corpus Gutenberg Children’s Book preprocesado para el modelo DrQA aquí.
  • La capa de incrustación del modelo se inicia mediante el vector de incrustación Stanford CoreNLP preentrenado.
  • El modelo devuelve el rango de respuesta más probable de cada uno de los 3 documentos principales.
  • Podemos acelerar significativamente el rendimiento del modelo a través de la inferencia paralela de datos, utilizando este modelo en varias GPU.

La canalización devuelve la lista de respuestas más probables de los tres documentos con más coincidencias.

Luego ejecutamos la canalización interactiva utilizando este modelo DrQA capacitado para probar el corpus de libros infantiles de Gutenberg.

Para la configuración del entorno, siga Léame.md en GitHub para descargar el código e instalar las dependencias. Para obtener todos los códigos y detalles relacionados, consulte nuestro enlace de GitHub aquí.

MRS utilizando DLVM

Siga los pasos similares enumerados en este computadora portátil para probar el modelo DrQA en DLVM.

Aprendizajes de nuestro trabajo de evaluación

En esta publicación, investigamos el rendimiento del modelo MRS en nuestro propio conjunto de datos personalizado. Probamos el rendimiento del enfoque de aprendizaje por transferencia para crear un sistema de control de calidad para alrededor de 528 libros infantiles de la Proyecto Gutenberg Corpus utilizando el modelo DrQA preentrenado. Los resultados de nuestra evaluación se capturan en los anexos a continuación y en la explicación que sigue. Tenga en cuenta que estos resultados son específicos de nuestro escenario de evaluación; los resultados variarán para otros documentos o escenarios.

En los ejemplos anteriores, probamos preguntas que comienzan con qué, cómo, quién, dónde y por qué, y hay un aspecto importante sobre MRS que vale la pena señalar, a saber:

  • MRS es más adecuado para preguntas «factoides». Las preguntas factoides tienen que ver con proporcionar hechos concisos. Por ejemplo, «¿Quién es el director de Hogwarts?» o «¿Cuál es el población de Marte”. Por lo tanto, para los tipos de preguntas Qué, Quién y Dónde anteriores, MRS funciona bien.
  • Para preguntas no factoides (p. ej., por qué), MRS no hace un buen trabajo.

El cuadro verde representa la respuesta correcta para cada pregunta. Como vemos aquí, para las preguntas factoides, las respuestas elegidas por el modelo MRS están en línea con la respuesta correcta. Sin embargo, en el caso de la pregunta no factoide «Por qué», la respuesta correcta es la tercera, y es la única que tiene algún sentido.

En general, nuestro escenario de evaluación muestra que para grandes corpus de documentos genéricos, el modelo DrQA hace un buen trabajo al responder preguntas factoides.
Anusúa
@anurive | Envía un correo electrónico a Anusua a [email protected] para preguntas relacionadas con esta publicación.

Fuente del artículo

Deja un comentario