GPT-3, un paso gigante para el aprendizaje profundo y la PNL

Hace unos días, OpenAI anunció un nuevo sucesor de su modelo de lenguaje (LM): GPT-3. Este es el modelo más grande entrenado hasta ahora, con 175 mil millones de parámetros. Si bien entrenar este modelo grande tiene sus méritos, leer una gran parte de 72 páginas puede ser tedioso. En esta publicación de blog, resaltaré las partes que encuentro interesantes para las personas familiarizadas con LM, que simplemente desean conocer (la mayoría de) los puntos importantes de este trabajo.

«La diversidad de tareas que el modelo es capaz de realizar en un entorno de disparo cero sugiere que los modelos de alta capacidad entrenados para maximizar la probabilidad de un corpus de texto lo suficientemente variado comienzan a aprender cómo realizar una cantidad sorprendente de tareas sin necesidad de una explicación explícita. supervisión»

Este es un extracto de el documento que acompaña a GPT-2. GPT-3 está dando un paso más en este camino.

Más específicamente, los autores señalan los inconvenientes del ajuste fino utilizando conjuntos de datos específicos de tareas.

  • Obtener estos conjuntos de datos es difícil.

  • El ajuste fino permite que el modelo aproveche las correlaciones espurias, lo que conduce a un mal rendimiento fuera de distribución.

  • Una breve directiva en lenguaje natural suele ser suficiente para que los humanos entiendan una tarea determinada. Esta adaptabilidad es una propiedad deseada de los sistemas de PNL.

La ruta que eligieron los autores es el «aprendizaje en contexto»: alimentar al modelo con una especificación de tarea (prompt) y/o algunas demostraciones de la tarea como prefijo, orientándolo hacia un subespacio en el espacio latente que se adhiere a la tarea asignada. La traducción, por ejemplo, se vería como «P: ¿Cuál es la traducción de A: «.

Esto se basa en la suposición de que el modelo desarrolla un amplio conjunto de habilidades y habilidades de reconocimiento de patrones en el momento del entrenamiento y luego usa esas habilidades en el momento de la inferencia para adaptarse rápidamente o reconocer la tarea deseada.

Es una sabiduría común que la perplejidad baja se correlaciona con el rendimiento en las tareas posteriores, por lo que uno puede esperar que los modelos más grandes produzcan mejores capacidades en contexto. Y, de hecho, esto es cierto, como se puede ver en la siguiente figura, donde se prueba una tarea simple que requiere que el modelo elimine símbolos aleatorios de una palabra:

La cantidad de ejemplos en contexto varía entre 10 y 100, ya que esto suele ser lo que se permite con el tamaño de contexto del modelo de 2048. La solicitud (especificación de la tarea) juega un papel importante cuando la cantidad de ejemplos es baja.

Los autores probaron muchos puntos de referencia bien conocidos, pero primero, inspeccionemos la especificación del modelo.

GPT-3 se compone de una arquitectura basada en Transformers similar a GPT-2, que incluye la inicialización modificada, la prenormalización y la tokenización reversible descritas en este documento, con la excepción de que utiliza patrones de atención dispersa alternados densos y con bandas locales en las capas. del transformador, similar al Sparse Transformer.

Los autores entrenaron varios tamaños de modelo, que van desde 125 millones de parámetros hasta 175 mil millones de parámetros, para medir la correlación entre el tamaño del modelo y el rendimiento de referencia.

Los autores tomaron tres pasos para mejorar la calidad promedio de los conjuntos de datos:

  • Descargaron y filtraron una versión de CommonCrawl basada en la similitud con una variedad de corpus de referencia de alta calidad.

  • Realizaron una deduplicación difusa para evitar la redundancia y preservar la integridad del conjunto de validación retenido.

  • Agregaron corpus conocidos de alta calidad a la combinación de capacitación.

En la siguiente figura podemos ver que el ley de potencia de LM todavía se mantiene:

Para probar si la pérdida de validación preentrenada se correlaciona con el rendimiento de tareas posteriores, los autores evaluaron una lista exhaustiva de puntos de referencia de NLP conocidos al alimentar K ejemplos del conjunto de entrenamiento en contexto para evaluar un ejemplo del conjunto de prueba. En el documento detallan todos los puntos de referencia, pero aquí opté por describir solo una pequeña muestra:

Modelado de lenguaje

Si bien se ve obligado a omitir muchos conjuntos de datos relacionados con la perplejidad del modelado del lenguaje debido a la contención en los datos de entrenamiento, PTB escapa a este problema debido a que es anterior a la Internet moderna, y GPT-3 establece un nuevo SOTA.

LAMBADA

En esta tarea, el modelo tiene que predecir la última palabra de una oración dada. Recientemente se ha sugerido que el escalamiento continuo de los LM está generando rendimientos decrecientes en este difícil punto de referencia. Y, sin embargo, GPT-3 logró una precisión del 76 % en la configuración de disparo cero, una ganancia del 8 % con respecto al SOTA anterior.

En la configuración de pocas tomas, la tarea se puede enmarcar como la tarea cloze (llenar los espacios en blanco), lo que facilita que el modelo entienda que solo se requiere una palabra. Esto produce una precisión del 86,4%.

Respuesta a preguntas de libro cerrado

En esta tarea, GPT-3 es superior a SOTA, que no solo afina la tarea, sino que también utiliza un componente de recuperación de información para recuperar fragmentos de texto que probablemente contengan la respuesta. Esto sugiere que los LM continúan absorbiendo conocimiento a medida que aumenta su capacidad.

Super pegamento

GPT-3 parece ser débil en algunas tareas que requieren una comparación entre dos oraciones, incluida la determinación de si una palabra se usa de la misma manera en dos oraciones, si una oración es una paráfrasis de otra o si una oración implica otra.

Generación de artículos de noticias

Los autores pidieron a evaluadores humanos que distinguieran entre artículos de noticias generados por humanos y por máquinas. A medida que aumenta el tamaño del modelo, los participantes obtuvieron puntajes de precisión más bajos a pesar de una mayor inversión de tiempo por artículo de noticias. Esto respalda el hallazgo de que los modelos más grandes generan artículos de noticias más difíciles de distinguir.

La detección precisa de la contaminación de las pruebas a partir de conjuntos de datos a escala de Internet es una nueva área de investigación sin mejores prácticas establecidas. A medida que aumenta la capacidad del modelo, aumenta el riesgo de memorización. En general, los autores eliminaron documentos que se superponen con el conjunto de prueba. Sin embargo, debido a un error, este proceso tuvo sobras. Intentaron evaluar el daño, y parece que el modelo no memoriza, y (la mayoría de) los resultados son válidos.

(Mi propia nota: tal vez sea hora de realizar pruebas más rigurosas en el campo de ML en general, como lo que es habitual en otros campos).

Si bien GPT-3 es cualitativamente mejor que su predecesor, su capacidad de síntesis de texto aún incurre en los puntos débiles que conocemos de otros LM, como repeticiones, pérdida de coherencia en pasajes suficientemente largos y contradicción.

Además, en algunas de las tareas, GPT-3 falló estrepitosamente. Esto podría deberse a la elección de utilizar un LM autorregresivo, en lugar de incorporar información bidireccional (de manera similar a Bert). Si bien el aprendizaje en contexto es más sencillo con los LM autorregresivos, se sabe que los modelos bidireccionales son mejores en las tareas posteriores después del ajuste. Al final, entrenar un modelo bidireccional a la escala de GPT-3 y/o tratar de hacer que los modelos bidireccionales funcionen con el aprendizaje de pocos disparos es una dirección prometedora para futuras investigaciones.

Una limitación más fundamental es que los modelos autorregresivos (y bidireccionales) eventualmente pueden llegar (o ya podrían estar llegando) a los límites del objetivo de preentrenamiento. Mejorar la tarea, por ejemplo, comprender qué es lo más importante de predecir (como las entidades), podría beneficiar al modelo. Basar el modelo en otros dominios de la experiencia, como el video o la interacción física del mundo real, también podría mover la aguja.

Una evidencia de que la tarea de preentrenamiento no es óptima es la eficiencia de la muestra: GPT-3 ve mucho más texto durante el preentrenamiento que lo que ve un ser humano en su vida. Mejorar la eficiencia de la muestra previa al entrenamiento es una dirección importante para el trabajo futuro y podría provenir de la conexión a tierra en el mundo físico para proporcionar información adicional o de mejoras algorítmicas.

Además, con los objetivos autosupervisados, la especificación de la tarea se basa en forzar la tarea deseada a un problema de predicción, mientras que, en última instancia, los sistemas de lenguaje útiles (por ejemplo, los asistentes virtuales) podrían pensarse mejor como acciones dirigidas a objetivos en lugar de solo hacer predicciones.

Otra limitación, o al menos incertidumbre, asociada con el aprendizaje de pocos intentos en GPT-3 es la ambigüedad acerca de si el aprendizaje de pocos intentos realmente aprende nuevas tareas «desde cero» en el momento de la inferencia, o si simplemente reconoce e identifica las tareas que ha aprendido. durante el entrenamiento.

Por último, pero no menos importante, el tamaño del modelo incurre en inconvenientes prácticos. La destilación, que no se ha probado a esta escala, es una dirección interesante.

¿Que te ha parecido?

Deja un comentario