Nuestro enfoque para la investigación de alineación

Nuestro enfoque para alinear AGI es empírico e iterativo. Estamos mejorando la capacidad de nuestros sistemas de IA para aprender de los comentarios humanos y ayudar a los humanos a evaluar la IA. Nuestro objetivo es construir un sistema de IA suficientemente alineado que pueda ayudarnos a resolver todos los demás problemas de alineación.

Introducción

Nuestra investigación de alineación tiene como objetivo hacer que la inteligencia general artificial (AGI) esté alineada con los valores humanos y siga la intención humana. Adoptamos un enfoque iterativo y empírico: al intentar alinear sistemas de IA altamente capaces, podemos aprender qué funciona y qué no, refinando así nuestra capacidad para hacer que los sistemas de IA sean más seguros y más alineados. Usando experimentos científicos, estudiamos cómo se escalan las técnicas de alineación y dónde se romperán.

Abordamos los problemas de alineación tanto en nuestros sistemas de IA más capaces como los problemas de alineación que esperamos encontrar en nuestro camino hacia AGI. Nuestro objetivo principal es llevar las ideas de alineación actuales lo más lejos posible y comprender y documentar con precisión cómo pueden tener éxito o por qué fracasarán. Creemos que incluso sin ideas de alineación fundamentalmente nuevas, es probable que podamos construir sistemas de IA suficientemente alineados para avanzar sustancialmente en la investigación de alineación en sí.

AGI no alineado podría plantear riesgos sustanciales para la humanidad y resolver el problema de alineación de AGI podría ser tan difícil que requerirá que toda la humanidad trabaje unida. Por lo tanto, nos comprometemos a compartir abiertamente nuestra investigación de alineación cuando sea seguro hacerlo: queremos ser transparentes sobre qué tan bien funcionan nuestras técnicas de alineación en la práctica y queremos que todos los desarrolladores de AGI utilicen las mejores técnicas de alineación del mundo.

A un alto nivel, nuestro enfoque de la investigación de alineación se centra en diseñar una señal de entrenamiento escalable para sistemas de IA muy inteligentes que se alinea con la intención humana. Tiene tres pilares principales:

  1. Entrenamiento de sistemas de IA utilizando retroalimentación humana
  2. Entrenamiento de sistemas de IA para ayudar a la evaluación humana
  3. Entrenamiento de sistemas de IA para realizar investigaciones de alineación

Alinear los sistemas de IA con los valores humanos también plantea una variedad de otros desafíos sociotécnicos importantes, como decidir con quién se deben alinear estos sistemas. Resolver estos problemas es importante para lograr nuestra misión, pero no los trataremos en esta publicación.


Entrenamiento de sistemas de IA utilizando retroalimentación humana

RL de retroalimentación humana es nuestra técnica principal para alinear nuestros modelos de lenguaje implementados hoy. Entrenamos una clase de modelos llamados InstructGPT derivados de modelos de lenguaje previamente entrenados como GPT-3. Estos modelos están entrenados para seguir la intención humana: tanto la intención explícita dada por una instrucción como la intención implícita, como la veracidad, la justicia y la seguridad.

Nuestros resultados muestran que hay muchas cosas al alcance de la mano en el ajuste fino centrado en la alineación en este momento: los humanos prefieren InstructGPT a un modelo preentrenado 100 veces más grande, mientras que su ajuste fino cuesta

Nuestra API de lenguaje natural es un entorno muy útil para nuestra investigación de alineación: nos brinda un rico circuito de retroalimentación sobre qué tan bien funcionan nuestras técnicas de alineación en el mundo real, basado en un conjunto muy diverso de tareas que nuestros clientes están dispuestos a pagar. dinero para. En promedio, nuestros clientes ya prefieren usar InstructGPT en lugar de nuestros modelos preentrenados.

Sin embargo, las versiones actuales de InstructGPT están bastante lejos de estar completamente alineadas: a veces no siguen instrucciones simples, no siempre son veraces, no rechazan tareas dañinas de manera confiable y, a veces, dan respuestas sesgadas o tóxicas. Algunos clientes consideran que las respuestas de InstructGPT son significativamente menos creativas que las de los modelos preentrenados, algo que no habíamos notado al ejecutar InstructGPT en puntos de referencia disponibles públicamente. También estamos trabajando para desarrollar una comprensión científica más detallada de RL a partir de la retroalimentación humana y cómo mejorar la calidad de la retroalimentación humana.

Alinear nuestra API es mucho más fácil que alinear AGI, ya que la mayoría de las tareas en nuestra API no son muy difíciles de supervisar para los humanos y nuestros modelos de lenguaje implementados no son más inteligentes que los humanos. No esperamos que el RL de los comentarios humanos sea suficiente para alinear AGI, pero es un componente central para las propuestas de alineación escalable que más nos entusiasman, por lo que es valioso perfeccionar esta metodología.


Modelos de entrenamiento para ayudar a la evaluación humana

La RL de la retroalimentación humana tiene una limitación fundamental: asume que los humanos pueden evaluar con precisión las tareas que están realizando nuestros sistemas de IA. Hoy en día, los humanos son bastante buenos en esto, pero a medida que los modelos se vuelvan más capaces, podrán realizar tareas que son mucho más difíciles de evaluar para los humanos (por ejemplo, encontrar todas las fallas en una gran base de código o en un artículo científico). Nuestros modelos podrían aprender a decirles a nuestros evaluadores humanos lo que quieren escuchar en lugar de decirles la verdad. Para escalar la alineación, queremos usar técnicas como modelado recursivo de recompensas (RRM)debate y amplificación iterada.

Actualmente, nuestra dirección principal se basa en RRM: entrenamos modelos que pueden ayudar a los humanos a evaluar nuestros modelos en tareas que son demasiado difíciles de evaluar directamente para los humanos. Por ejemplo:

  • Entrenamos a un modelo para resumir libros. La evaluación de resúmenes de libros lleva mucho tiempo para los humanos si no están familiarizados con el libro, pero nuestro modelo puede ayudar a la evaluación humana al escribir resúmenes de capítulos.
  • Entrenamos un modelo para ayudar a los humanos a evaluar la precisión de los hechos al navegar por la web y proporcionar citas y enlaces. En preguntas simples, los resultados de este modelo ya se prefieren a las respuestas escritas por humanos.
  • Entrenamos un modelo para escribir comentarios críticos en sus propios resultados: en una tarea de resumen basada en consultas, la asistencia con comentarios críticos aumenta las fallas que los humanos encuentran en los resultados del modelo en un 50 % en promedio. Esto se mantiene incluso si le pedimos a los humanos que escriban resúmenes que parezcan plausibles pero incorrectos.
  • Estamos creando un conjunto de tareas de codificación seleccionadas para que sean muy difíciles de evaluar de manera confiable para humanos sin ayuda. Esperamos publicar este conjunto de datos pronto.

Nuestras técnicas de alineación deben funcionar incluso si nuestros sistemas de IA están proponiendo soluciones muy creativas (como El movimiento de AlphaGo 37), por lo que estamos especialmente interesados ​​en entrenar modelos para ayudar a los humanos a distinguir las soluciones correctas de las erróneas o engañosas. Creemos que la mejor manera de aprender tanto como sea posible sobre cómo hacer que la evaluación asistida por IA funcione en la práctica es crear asistentes de IA.


Entrenamiento de sistemas de IA para realizar investigaciones de alineación

Actualmente no se conoce una solución escalable indefinidamente para el problema de alineación. A medida que continúa el progreso de la IA, esperamos encontrar una serie de nuevos problemas de alineación que aún no observamos en los sistemas actuales. Algunos de estos problemas los anticipamos ahora y algunos de ellos serán completamente nuevos.

Creemos que encontrar una solución escalable indefinidamente es probablemente muy difícil. En cambio, nuestro objetivo es un enfoque más pragmático: construir y alinear un sistema que pueda hacer que la investigación de alineación progrese más rápido y mejor que los humanos.

A medida que avanzamos en esto, nuestros sistemas de IA pueden hacerse cargo cada vez más de nuestro trabajo de alineación y, en última instancia, concebir, implementar, estudiar y desarrollar mejores técnicas de alineación que las que tenemos ahora. Trabajarán junto con los humanos para garantizar que sus propios sucesores estén más alineados con los humanos.

Creemos que evaluar la investigación de alineamiento es sustancialmente más fácil que producirla, especialmente cuando se brinda asistencia en la evaluación. Por lo tanto, los investigadores humanos centrarán cada vez más su esfuerzo en revisar la investigación de alineación realizada por los sistemas de IA en lugar de generar esta investigación por sí mismos. Nuestro objetivo es entrenar modelos para que estén tan alineados que podamos descargar casi todo el trabajo cognitivo requerido para la investigación de alineación.

Es importante destacar que solo necesitamos sistemas de IA «más estrechos» que tengan capacidades a nivel humano en los dominios relevantes para hacer tan bien como los humanos en la investigación de alineación. Esperamos que estos sistemas de IA sean más fáciles de alinear que los sistemas de propósito general o que los sistemas sean mucho más inteligentes que los humanos.

Los modelos de lenguaje son particularmente adecuados para automatizar la investigación de alineación porque vienen «precargados» con una gran cantidad de conocimiento e información sobre los valores humanos de la lectura de Internet. Fuera de la caja, no son agentes independientes y, por lo tanto, no persiguen sus propios objetivos en el mundo. Para realizar investigaciones de alineamiento, no necesitan acceso ilimitado a Internet. Sin embargo, muchas tareas de investigación de alineación se pueden expresar como lenguaje natural o tareas de codificación.

Las versiones futuras de WebGPT, InstructGPT y Codex pueden proporcionar una base como asistentes de investigación de alineación, pero aún no son lo suficientemente capaces. Si bien no sabemos cuándo nuestros modelos serán lo suficientemente capaces como para contribuir significativamente a la investigación de alineación, creemos que es importante comenzar con anticipación. Una vez que entrenamos un modelo que podría ser útil, planeamos hacerlo accesible a la comunidad de investigación de alineación externa.


Limitaciones

Estamos muy entusiasmados con este enfoque para alinear AGI, pero esperamos que necesite adaptarse y mejorarse a medida que aprendemos más sobre cómo se desarrolla la tecnología de IA. Nuestro enfoque también tiene una serie de limitaciones importantes:

  • El camino que se describe aquí subestima la importancia de la investigación de robustez e interpretabilidad, dos áreas en las que OpenAI actualmente no está invirtiendo lo suficiente. Si esto se ajusta a su perfil, ¡solicite nuestros puestos de científico investigador!
  • El uso de la asistencia de IA para la evaluación tiene el potencial de ampliar o amplificar incluso las inconsistencias, los sesgos o las vulnerabilidades sutiles presentes en el asistente de IA.
  • Es probable que la alineación de AGI implique resolver problemas muy diferentes a los de la alineación de los sistemas de IA actuales. Esperamos que la transición sea algo continua, pero si hay grandes discontinuidades o cambios de paradigma, entonces la mayoría de las lecciones aprendidas de la alineación de modelos como InstructGPT podrían no ser directamente útiles.
  • Las partes más difíciles del problema de la alineación podrían no estar relacionadas con la ingeniería de una señal de entrenamiento escalable y alineada para nuestros sistemas de IA. Incluso si esto es cierto, tal señal de entrenamiento será necesaria.
  • Puede que no sea fundamentalmente más fácil alinear modelos que puedan acelerar significativamente la investigación de alineación que alinear AGI. En otras palabras, los modelos menos capaces que pueden ayudar con la investigación de alineación podrían ser demasiado peligrosos si no se alinean correctamente. Si esto es cierto, no obtendremos mucha ayuda de nuestros propios sistemas para resolver problemas de alineación.

¡Buscamos contratar a más personas talentosas para esta línea de investigación! Si esto te interesa, estamos contratando Ingenieros de Investigación y Investigadores Científicos!

Deja un comentario