Aprendiendo a jugar Minecraft con video preentrenamiento (VPT)

Entrenamos una red neuronal para jugar Minecraft por Video PreTraining (VPT) en un conjunto de datos de video masivo sin etiquetar del juego humano de Minecraft, mientras usamos solo una pequeña cantidad de datos de contratistas etiquetados. Con un ajuste fino, nuestro modelo puede aprender a fabricar herramientas de diamante, una tarea que normalmente lleva a los humanos competentes más de 20 minutos (24 000 acciones). Nuestro modelo utiliza la interfaz humana nativa de pulsaciones de teclas y movimientos del mouse, lo que lo hace bastante general y representa un paso hacia los agentes generales que usan computadoras.

leer papel
Ver código y pesos de modelos
Competencia MineRL

Internet contiene una enorme cantidad de videos disponibles públicamente de los que podemos aprender. Puedes ver a una persona hacer una hermosa presentación, un artista digital dibujar una hermosa puesta de sol y un jugador de Minecraft construir una casa intrincada. Sin embargo, estos videos solo proporcionan un registro de qué pasó pero no precisamente cómo se logró, es decir, no sabrá la secuencia exacta de movimientos del mouse y teclas presionadas. Si quisiéramos construir a gran escala modelos de cimientos en estos dominios como lo hemos hecho en lenguaje con GPTesta falta de etiquetas de acción plantea un nuevo desafío que no está presente en el dominio del lenguaje, donde las «etiquetas de acción» son simplemente las siguientes palabras en una oración.

Con el fin de utilizar la gran cantidad de datos de video sin etiquetar disponibles en Internet, presentamos un método de aprendizaje de imitación semisupervisado novedoso, pero simple: Video PreTraining (VPT). Comenzamos recopilando un pequeño conjunto de datos de los contratistas donde grabamos no solo su video, sino también las acciones que realizaron, que en nuestro caso son pulsaciones de teclas y movimientos del mouse. Con estos datos entrenamos un modelo de dinámica inversa (IDM), que predice la acción que se está tomando en cada paso del video. Es importante destacar que el IDM puede usar pasado y futuro información para adivinar la acción en cada paso. Esta tarea es mucho más fácil y, por lo tanto, requiere muchos menos datos que la tarea de clonación conductual de predecir acciones dadas. solo fotogramas de vídeo anteriores, lo que requiere inferir lo que la persona quiere hacer y cómo lograrlo. Luego podemos usar el IDM capacitado para etiquetar un conjunto de datos mucho más grande de videos en línea y aprender a actuar a través de la clonación de comportamiento.

Descripción general del método VPT

Resultados de disparo cero de VPT

Elegimos validar nuestro método en Minecraft porque (1) es uno de los videojuegos más jugados en el mundo y, por lo tanto, tiene una gran cantidad de datos de video disponibles gratuitamente y (2) es abierto con una amplia variedad de cosas para hacer, similar a las aplicaciones del mundo real, como el uso de la computadora. A diferencia de previo obras en Minecraft que usan espacios de acción simplificados destinados a facilitar la exploración, nuestra IA usa la interfaz humana nativa mucho más general, aunque también mucho más difícil: velocidad de fotogramas de 20 Hz con el mouse y el teclado.

Entrenado en 70 000 horas de video en línea etiquetado por IDM, nuestro modelo de clonación de comportamiento (el «modelo básico VPT») realiza tareas en Minecraft que son casi imposibles de lograr con el aprendizaje reforzado desde cero. Aprende a talar árboles para recolectar troncos, a convertir esos troncos en tablones y luego a convertir esos tablones en una mesa de trabajo; esta secuencia le lleva a un humano experto en Minecraft aproximadamente 50 segundos o 1,000 acciones de juego consecutivas.

Secuencia de elementos necesarios para fabricar una mesa de trabajo, etiquetados con el tiempo medio que tardan los humanos competentes en llegar a cada paso
Elaboración de una mesa de elaboración «disparo cero» (es decir, solo después del entrenamiento previo sin ajustes adicionales)

Además, el modelo realiza otras habilidades complejas que los humanos suelen hacer en el juego, como nadar, cazar animales para comer y comer esa comida. También aprendió la habilidad de «saltar pilares», un comportamiento común en Minecraft de elevarte saltando repetidamente y colocando un bloque debajo de ti.

Ajuste fino con clonación conductual

Los modelos básicos están diseñados para tener un amplio perfil de comportamiento y, en general, ser capaces de realizar una amplia variedad de tareas. Para incorporar nuevos conocimientos o permitirles especializarse en una distribución de tareas más limitada, es una práctica común ajustar estos modelos a conjuntos de datos más pequeños y específicos. Como estudio de caso sobre qué tan bien se puede ajustar el modelo básico de VPT a los conjuntos de datos posteriores, les pedimos a nuestros contratistas que jugaran durante 10 minutos en nuevos mundos de Minecraft y construyeran una casa con materiales básicos de Minecraft. Esperábamos que esto ampliara la capacidad del modelo de base para realizar de manera confiable habilidades de «juego temprano», como construir mesas de trabajo. Cuando ajustamos este conjunto de datos, no solo vemos una mejora masiva en el desempeño confiable de las habilidades iniciales del juego ya presentes en el modelo básico, sino que el modelo ajustado también aprende a profundizar aún más en el árbol de tecnología al crear ambos juegos de madera. y herramientas de piedra. A veces, incluso vemos la construcción de un refugio rudimentario y al agente buscando en las aldeas, incluidos los cofres de asalto.

Secuencia de elementos necesarios para fabricar un pico de piedra, etiquetados con el tiempo medio que tardan los humanos competentes en llegar a cada paso

Comportamiento mejorado al principio del juego gracias al ajuste fino de BC

Fabricación de un pico de piedra

Construyendo un refugio de madera rudimentario

Buscando a través de un pueblo

Escalado de datos

Quizás la hipótesis más importante de nuestro trabajo es que es mucho más efectivo usar datos de contratistas etiquetados para entrenar un IDM (como parte de la canalización de VPT) que entrenar directamente un modelo de cimentación de BC a partir de ese mismo conjunto de datos de contratistas pequeños. Para validar esta hipótesis, entrenamos modelos básicos en cantidades crecientes de datos de 1 a 70 000 horas. Aquellos capacitados con menos de 2000 horas de datos reciben capacitación sobre los datos del contratista con etiquetas de verdad en el terreno que se recopilaron originalmente para capacitar al IDM, y aquellos capacitados con más de 2000 horas reciben capacitación sobre datos de Internet etiquetados con nuestro IDM. Luego tomamos cada modelo de cimentación y lo ajustamos al conjunto de datos de construcción de viviendas descrito en la sección anterior.

Efecto de los datos de entrenamiento del modelo base en el ajuste fino

A medida que aumentan los datos del modelo de base, generalmente vemos un aumento en la capacidad de elaboración, y solo en la escala de datos más grande vemos el surgimiento de la elaboración de herramientas de piedra.

Ajuste fino con aprendizaje por refuerzo

Cuando es posible especificar una función de recompensa, el aprendizaje por refuerzo (RL) puede ser un método poderoso para obtener un rendimiento alto, potencialmente incluso sobrehumano. Sin embargo, muchas tareas requieren superar desafíos de exploración difíciles, y la mayoría de los métodos de RL los abordan con aleatorio previas de exploración, por ejemplo, a menudo se incentiva a los modelos para que actúen aleatoriamente a través de bonificaciones de entropía. El modelo VPT debería ser mucho mejor antes de RL porque emular el comportamiento humano probablemente sea mucho más útil que realizar acciones aleatorias. Le propusimos a nuestro modelo la desafiante tarea de recolectar un pico de diamante, una capacidad sin precedentes en Minecraft que se hizo aún más difícil cuando se usa la interfaz humana nativa.

Fabricar un pico de diamante requiere una secuencia larga y complicada de subtareas. Para que esta tarea sea manejable, recompensamos a los agentes por cada elemento de la secuencia.

Modelo VPT afinado en RL creando un pico de diamante

Descubrimos que una política de RL entrenada a partir de una inicialización aleatoria (el método RL estándar) apenas logra ninguna recompensa, nunca aprende a recopilar registros y solo rara vez recopila palos. En marcado contraste, el ajuste fino de un modelo VPT no solo aprende a fabricar picos de diamantes (lo que hace en el 2,5% de los episodios de Minecraft de 10 minutos), sino que incluso tiene una tasa de éxito a nivel humano en la recopilación de todos los elementos que conducen a el pico de diamante. Esta es la primera vez que alguien muestra a un agente informático capaz de fabricar herramientas de diamante en Minecraft, lo que lleva a los humanos más de 20 minutos (24,000 acciones) en promedio.

Recompensa por episodios

Conclusión

VPT allana el camino para permitir que los agentes aprender a actuar viendo la gran cantidad de videos en Internet. En comparación con el modelado de video generativo o los métodos contrastivos que solo producirían figurativo previos, VPT ofrece la emocionante posibilidad de aprender directamente a gran escala antecedentes conductuales en más dominios además del lenguaje. Si bien solo experimentamos en Minecraft, el juego es muy abierto y la interfaz humana nativa (mouse y teclado) es muy genérica, por lo que creemos que nuestros resultados son un buen augurio para otros dominios similares, por ejemplo, el uso de computadoras.

Para obtener más información, consulte nuestro papel. También estamos abriendo los datos de nuestros contratistas, el entorno de Minecraft, el código del modelo y los pesos del modelo, lo que esperamos ayude a futuras investigaciones sobre VPT. Además, este año nos hemos asociado con la competencia MineRL NeurIPS. Los concursantes pueden usar y afinar nuestros modelos para tratar de resolver muchas tareas difíciles en Minecraft. Los interesados ​​pueden consultar la pagina web de la competencia y competir por un premio de cielo azul de $100,000 además de un pozo de premios regular de $20,000. Las subvenciones están disponibles para grupos e individuos que se identifican a sí mismos como subrepresentados.

¿Que te ha parecido?

Deja un comentario