Futuro del procesamiento del lenguaje natural con aprendizaje profundo (NLP/DL)

Recientemente asistí a una charla de Kevin Clarke (CS224n) donde habló sobre las tendencias futuras en PNL. Estoy escribiendo esta publicación para resumir y discutir las tendencias recientes. Los fragmentos de diapositivas son de su conferencia invitada.

Hay 2 temas principales que marcan las tendencias de la PNL con Deep Learning:
1. Pre-entrenamiento usando datos no supervisados/no etiquetados
2. Avance de OpenAI GPT-2

1. Pre-entrenamiento usando datos no supervisados/no etiquetados

Los datos supervisados ​​son costosos y limitados, ¿cómo podemos usar los datos no supervisados ​​para complementar la capacitación con ajustes supervisados ​​para hacerlo mejor?

Apliquemos esto al problema de la traducción automática y veamos cómo ayuda:

Si tiene 2 corpus de texto (transcripciones o artículos de wikipedia) en diferentes idiomas sin mapeo entre idiomas.

Podemos usar esto para el entrenamiento previo, entrenar un codificador y un decodificador LSTM (sin atención) individualmente en ambos corpus y unirlos en un modelo y ajustarlos en un conjunto de datos etiquetado.

¿Cómo ayuda esto? Tanto el codificador como el decodificador LSTM aquí han aprendido la noción de sus respectivas distribuciones de idioma y son buenos como modelos generativos para cada uno de sus idiomas. Cuando los junta (n.º 2), el modelo aprende a usar la representación comprimida y los mapea de los idiomas de origen a los de destino. El entrenamiento previo es equivalente a la inicialización «inteligente» de alguna manera. Llevemos esto más lejos.

1673323826 105 Futuro del procesamiento del lenguaje natural con aprendizaje profundo NLPDL

El problema con el entrenamiento previo es que la red no se entrenó originalmente para aprender un mapeo de origen a destino. Veamos cómo la autoformación aplicada como retrotraducción ayuda aquí, usamos un modelo NMT (traducción automática neuronal) para traducir del inglés al francés y luego alimentamos la salida NMT1 como un par de valores inversos a NMT2. Es decir, dada la salida de NMT1, el modelo 2 aprende a generar la entrada. Se trata más de datos supervisados ​​»aumentados» en los que, dada la entrada ruidosa de otro modelo, su red está aprendiendo a predecir la entrada del modelo anterior.

1673323826 383 Futuro del procesamiento del lenguaje natural con aprendizaje profundo NLPDL

Hasta ahora todo bien, veamos un enfoque más simple para realizar NMT con datos etiquetados como cero. Esto se hace aprendiendo vectores de palabras en ambos idiomas, lo bueno de los vectores de palabras es que tienen una estructura inherente. Esto nos permite aprender un mapeo afín entre los dos idiomas un peso (W) en la imagen de abajo.

1673323827 507 Futuro del procesamiento del lenguaje natural con aprendizaje profundo NLPDL

Las palabras con significados similares se mapearán bastante cerca en el espacio incrustado entre idiomas. Ahora, usándolos en nuestro codificador y decodificador anterior, podemos entrenar la red para producir traducción entre idiomas, ya que ahora conocemos el significado de las palabras en ambos idiomas.

1673323827 981 Futuro del procesamiento del lenguaje natural con aprendizaje profundo NLPDL

Un resumen de las funciones objetivo de la optimización:

  • El mismo codificador se entrena dos veces, una vez para aprender a producir el idioma de origen de forma automática, esto ayuda a la red a consolidar aún más el mapeo del idioma de origen y de destino a través de – Src -> Target -> Src learning
  • En segundo lugar, usar datos supervisados ​​para realizar una retrotraducción usando la salida de otra red.
1673323827 365 Futuro del procesamiento del lenguaje natural con aprendizaje profundo NLPDL

Recientemente, el equipo de investigación de Facebook aumentó el objetivo de capacitación de enmascaramiento de idiomas de BERT no solo para enmascarar palabras en un idioma, sino también para proporcionar entradas de red en 2 idiomas (supervisado) y enmascarar palabras en uno. Por lo tanto, hacer que aprenda el significado entre idiomas, esto proporcionó una mejora significativa en el rendimiento y el documento se titula BERT multilingüe

1673323828 111 Futuro del procesamiento del lenguaje natural con aprendizaje profundo NLPDL

1673323828 53 Futuro del procesamiento del lenguaje natural con aprendizaje profundo NLPDL

2. GPT-2

A continuación, veamos el modelo GPT-2 de OpenAI, este es básicamente un modelo ENORME (1.500 millones de parámetros) entrenado en datos de calidad (enlaces de alta calificación en Reddit).

1673323829 909 Futuro del procesamiento del lenguaje natural con aprendizaje profundo NLPDL

GPT-2 está entrenado como modelo de lenguaje, pero se evaluó en muchas tareas, es decir, se evaluó como modelo Zero Shot.

(El aprendizaje de tiro cero significa tratar de hacer una tarea sin siquiera entrenarse en ella).

1673323829 859 Futuro del procesamiento del lenguaje natural con aprendizaje profundo NLPDL

Ahora la pregunta es, ¿cómo usamos GPT-2 para realizar la traducción a pesar de que nunca fue entrenado explícitamente para realizar la traducción? La respuesta a la pregunta se puede ver en el fragmento de corpus a continuación: las comillas se traducen en un grupo de datos de entrada a otro idioma, el modelo aprende inteligentemente entre ambos idiomas un mapeo que utiliza inherentemente para realizar la traducción.

1673323829 276 Futuro del procesamiento del lenguaje natural con aprendizaje profundo NLPDL

Los modelos han seguido creciendo en tamaño y se desempeñan mejor en tareas de visión y lenguaje. Cuánto tiempo continuará la tendencia es una pregunta que esperamos responder en el futuro 🙂

Fuente del artículo

Deja un comentario