Un problema central de alineación de la IA: generalización de capacidades y giro brusco a la izquierda

(Esta publicación se elaboró ​​a partir de una publicación más grande que yo (Nate Soares) escribí, con la ayuda de Rob Bensinger, quien también reorganizó algunas piezas y agregó texto para suavizar las cosas. No estoy muy contento con él, pero lo estoy publicando de todos modos (o, bueno, le pedí a Rob que lo publique en mi nombre mientras viajo) con la teoría de que es mejor que nada.)

Espero que navegar el período de riesgo agudo sea complicado para nuestra civilización, por varias razones. Me parece que el éxito requiere superar una variedad de obstáculos técnicos, sociopolíticos y morales, y aunque en principio un dominio suficiente de las soluciones a los problemas técnicos podría sustituir a las soluciones a los problemas sociopolíticos y de otro tipo, me parece, sin embargo, que necesitamos un muchas cosas para ir bien.

Algunos subproblemas me parecen más difíciles que otros. Por ejemplo, las personas todavía se sorprenden regularmente cuando les digo que creo que las partes difíciles son mucho más técnicas que morales: me parece que descubrir cómo apuntar un AGI es más difícil que averiguar dónde apuntarlo.

Dentro de la lista de obstáculos técnicos, hay algunos que me parecen más centrales que otros, como «descubrir cómo apuntar a la optimización». Y una gran razón por la que actualmente soy bastante pesimista sobre las probabilidades de la humanidad es que me parece que casi nadie se está enfocando en los desafíos técnicos que me parecen más centrales e inevitables.

Mucha gente cree erróneamente que soy pesimista porque creo que el problema de la alineación es extraordinariamente difícil a nivel puramente técnico. Eso es rotundamente falso, y ocupa un lugar bastante alto en mi lista de conceptos erróneos menos favoritos de mis puntos de vista.

Creo que el problema es un problema normal de dominar algún campo científico, como lo ha hecho la humanidad muchas veces antes. Tal vez sea algo más complicado, debido a que (p. ej.) la inteligencia es más complicada que, digamos, la física; tal vez sea algo más fácil debido a que tenemos un acceso más introspectivo a una mente en funcionamiento que a los campos físicos de bajo nivel; pero en general, dudo que sea cualitativamente diferente al tipo de cumbres que la humanidad ha superado antes.

Se hace más complicado por el hecho de que probablemente tengamos que alcanzar el dominio de la inteligencia general antes de pasar un montón de tiempo trabajando con inteligencias generales (debido a que parece probable que nos matemos por accidente dentro de unos años, una vez que tengamos AGI en mano, si no ocurre ningún acto fundamental), pero eso por sí solo no es suficiente para socavar mi esperanza.

Lo que socava mi esperanza es que nadie parece estar trabajando en las partes difíciles, y actualmente no espero que la mayoría de la gente se convenza de que necesitan resolver esas partes difíciles hasta que sea demasiado tarde.

A continuación, intentaré esbozar lo que quiero decir con «las partes difíciles» del problema de alineación. Aunque estos parecen difíciles, creo en la capacidad de la humanidad para resolver problemas técnicos en este nivel de dificultad cuando nos lo proponemos. Mi preocupación es que actualmente no creo que el campo esté difícil para resolver este problema. Mi esperanza al escribir esta publicación es señalar mejor el problema, con la esperanza de que esto haga que los nuevos investigadores ingresen al campo para atacar lo que me parecen ser los desafíos centrales de frente.

Discusión de un problema

En mi modelo, uno de los desafíos técnicos más centrales de la alineación, y uno que todo plan de alineación viable probablemente deba abordar, es el problema de que las capacidades se generalizan mejor que la alineación.

Mi suposición de cómo va el progreso de la IA es que, en algún momento, algún equipo obtiene una IA que comienza a generalizar lo suficientemente bien, lo suficientemente lejos de su distribución de entrenamiento, que puede dominar campos como la física, la bioingeniería y la psicología, a un alto nivel. grado suficiente para que, más o menos sin ayuda, amenace al mundo entero. Probablemente sin necesidad de un entrenamiento explícito para sus hazañas más hábiles, más de lo que los humanos necesitaron muchas generaciones de matar a los ingenieros de cohetes menos exitosos para refinar nuestros cerebros hacia la ingeniería de cohetes antes de que la humanidad lograra un alunizaje.

Y en el mismo momento en que sus capacidades avanzan, sus propiedades de alineación se revelan superficiales y no se pueden generalizar. La analogía central aquí es que la optimización de los simios para la aptitud genética inclusiva (IGF) no hace que los humanos resultantes se optimicen mentalmente para el IGF. Claro, los simios están comiendo porque tienen un instinto de hambre y tienen sexo porque se siente bien, pero no es como si ellos pudo estar comiendo/fornicando debido a un razonamiento explícito sobre cómo esas actividades conducen a más IGF. Todavía no pueden realizar el tipo de razonamiento abstracto que justificaría correctamente esas acciones en términos de IGF. Y luego, cuando comienzan a generalizar bien a la manera de los humanos, como era de esperar, no lo hacen. empezar de repente comer/fornicar porque de razonamiento abstracto sobre IGF, a pesar de que ahora pudo. En cambio, inventan condones y pelean contigo si tratas de quitarles el gusto por la buena comida (diciéndoles que simplemente calculen el IGF manualmente). Las propiedades de alineación que elogiaste antes de que las capacidades comenzaran a generalizarse, como era de esperar, no se generalizan con las capacidades.

Algunas personas digo esto para responder con argumentos como: «Seguramente, antes de que un equipo más pequeño pueda obtener un AGI que pueda dominar temas como la biotecnología y la ingeniería lo suficientemente bien como para matar a todos los humanos, alguna otra entidad más grande, como un actor estatal, tendrá un ¿Una IA algo peor que puede manejar la biotecnología y la ingeniería un poco menos bien, pero de una manera que evita que cualquier AGI se escape con todo el futuro?

Respondo con argumentos como: «En el único ejemplo real de inteligencia que se está desarrollando tenemos que mirar, la aplicación continua de la selección natural de hecho encontró Homo sapiens sapiensy las curvas de capacidad-ganancia del ecosistema para varios medibles fueron, de hecho, marcadamente torcidas por esta nueva especie (por ejemplo, usando máquinas, superamos considerablemente a otros animales en métricas bien establecidas como «velocidad aérea», «altitud» y » capacidad de transporte de carga”).

Su respuesta, a su vez, es generalmente una variante de «bueno, la selección natural no estaba optimizando de manera muy inteligente» o «tal vez los humanos no estaban tan por encima de las tendencias evolutivas» o «tal vez el poder que permitió a los humanos vencer al resto del ecosistema fue simplemente la invención de la cultura, y nada incrustado en nuestra propia cultura ya existente puede vencernos” o cosas por el estilo.

En lugar de discutir más aquí, solo diré que no creer que el problema difícil existe es una forma segura de evitar abordarlo.

Entonces, resumiendo mi punto de vista en lugar de argumentarlo: me parece que en algún momento habrá una especie de «giro brusco a la izquierda», ya que los sistemas comienzan a funcionar muy bien en dominios que van mucho más allá de los entornos de su entrenamiento. dominios que permiten una remodelación significativa del mundo, en la forma en que los humanos remodelan el mundo y los chimpancés no lo hacen. Y ahí es donde (según yo) las cosas empiezan a enloquecer. En particular, creo que una vez que las capacidades de IA comiencen a generalizarse de esta manera particular, es predecible que la alineación del sistema no se generalice con él.

Esto es un poco anterior a un par de otros desafíos que considero bastante centrales y difíciles de evitar, que incluyen:

  1. Dirigir un AGI capaz hacia un objetivo de su elección.
  2. Garantizar que el AGI sea de bajo impacto, conservador, clausurable y corregible.

Estos dos problemas aparecen en el problema de fresa, que Eliezer ha estado señalando durante bastante tiempo: el problema de lograr que una IA coloque dos fresas idénticas (hasta el nivel celular pero no molecular) en un plato y luego no haga nada más. La demanda de copia a nivel celular obliga a la IA a ser capaz; el hecho de que podamos hacer que duplique una fresa en lugar de hacer otra cosa demuestra nuestra capacidad para dirigirlo; el hecho de que no haga nada más indica que es corregible (o muy bien alineado con una delicada noción humana intuitiva de inacción).

¿Cómo es el problema de “las capacidades se generalizan más allá de la alineación” aguas arriba de estos problemas? Supongamos que el equipo ficticio OpenMind está entrenando una variedad de sistemas de inteligencia artificial, antes de que uno de ellos tome ese giro brusco a la izquierda. Supongamos que han puesto la IA en muchos videojuegos y entornos simulados diferentes, y han tenido suerte entrenándola para perseguir un objetivo que los operadores describieron en inglés. “No sé de qué estaban hablando esas personas de MIRI; estos sistemas son fáciles de dirigir; un simple entrenamiento es suficiente”, dicen. Al mismo tiempo, aplican varios métodos de entrenamiento, algunos simples y otros inteligentes, para hacer que el sistema permita que ciertos «designados por el operador» lo eliminen de varios juegos. personajes en esos juegos, en nombre de la capacidad de apagado. Y usan varias técnicas para evitar que se destruya en Minecraft, en nombre del bajo impacto. Y lo entrenan en una variedad de dilemas morales, y descubren que puede ser entrenado para dar respuestas correctas a preguntas morales (como «en tal o cual circunstancia, ¿deberías envenenar al oponente del operador?») ya que puede ser entrenado para dar respuestas correctas a cualquier otro tipo de pregunta. “Bueno”, dicen, “esta cosa de la alineación seguro que fue fácil. Supongo que tuvimos suerte.

Luego, el sistema toma ese giro brusco a la izquierda y, como era de esperar, las capacidades mejoran rápidamente fuera de su distribución de entrenamiento, mientras que la alineación se desmorona.

¿Las técnicas que usó OpenMind para entrenarlo lejos del error donde se convence a sí mismo de que las malas situaciones son poco probables? Esos generalizan bien. ¿Las técnicas que usó para entrenarlo para permitir que los operadores lo apagaran? Esos se desmoronan, y el AGI comienza a querer evitar el cierre, incluso a querer engañarlo si es útil hacerlo.

¿Por qué falla la alineación mientras que las capacidades se generalizan, al menos por defecto y en la práctica predecible? En gran parte, porque las buenas capacidades forman algo así como un pozo atractor. (Esa es una de las razones para esperar que los sistemas inteligentes eventualmente hagan ese giro brusco a la izquierda si los empuja lo suficiente, y es por eso que la selección natural logró tropezar con la inteligencia general sin comprensión, previsión o dirección).

Muchos escenarios de entrenamiento diferentes le están enseñando a su IA las mismas lecciones instrumentales, sobre cómo pensar de manera precisa y útil. Además, esas lecciones están respaldadas por una estructura lógica simple, muy parecida a las leyes simples de la aritmética que respaldan de manera abstracta una amplia variedad de hechos aritméticos empíricos sobre lo que sucede cuando sumas las bolsas de manzanas de cuatro personas en una mesa y luego divides el contenido entre dos personas.

Pero que atractor bien? Tiene un parámetro libre. Y ese parámetro es para lo que está optimizando el AGI. Y no hay un atractor de fuerza análoga que atraiga los objetivos de AGI hacia sus objetivos preferidos.

¿El giro brusco a la izquierda? Ese es su sistema deslizándose bien hacia las capacidades. (No es necesario caer tan bajo para hacer cosas impresionantes; los humanos son mejores en una enorme variedad de habilidades relevantes que los chimpancés, pero no son tan legales en un sentido absoluto).

No hay un pozo de alineación análogo en el que deslizarse.

Por el contrario, es probable que deslizar hacia abajo las capacidades rompa un montón de sus propiedades de alineación existentes.

¿Por qué? Porque las cosas en las capacidades tienen incentivos instrumentales que van en contra de sus parches de alineación. Al igual que sus errores aritméticos anteriores (como el clasificadores de guijarros en el lado equivocado de la Gran Guerra de 1957) se ve arrollado por el desarrollo de la aritmética, al igual que sus intentos de hacer que el AGI sea de bajo impacto y se pueda apagar en última instancia (por defecto, y en ausencia de soluciones técnicas para los problemas de alineación central) ser arrollado por un sistema que enfrenta esos reflejos / intuiciones / patrones de comportamiento mucho más extraños contra el incentivo instrumental convergente para sobrevivir el día.

Quizás esto no sea convincente; tal vez para convencerlo tendríamos que profundizar en la maleza de los diversos contraargumentos, si quiere convencerlo. (Como reconocer que los humanos, que pueden prever estas dificultades y ajustar sus procedimientos de entrenamiento en consecuencia, tienen una mejor oportunidad que la selección natural, mientras discutía por qué las propuestas actuales no me parecen esperanzadoras.) Pero espero que al menos puedas, al leer este documento, desarrollar una comprensión básica de mi posición.

Expresándolo de nuevo, en resumen: mi posición es que las capacidades se generalizan más allá de la alineación (una vez que las capacidades comienzan a generalizarse muy bien (que es algo que predigo que sucederá)). Y esto, por defecto, arruina su capacidad para dirigir el AGI (que ha bajado bien las capacidades), y rompe cualquier restricción que esperaba que la mantuviera corregible. Y abordar el problema parece encontrar alguna manera de mantener su sistema alineado durante ese giro brusco a la izquierda o alinearlo después.

En una próxima publicación, diré más sobre cómo me parece que ~nadie está trabajando en este problema difícil en particular, revisando brevemente una variedad de propuestas de investigación de alineación actuales. En resumen, creo que la gama actual de enfoques del campo casi todos asumen este problema o dirigen su atención a otra parte.




Fuente del artículo

Deja un comentario