AGI Ruin: una lista de letalidades

Preámbulo:

(Si ya está familiarizado con todos los conceptos básicos y no quiere ningún preámbulo, salte a Sección B por dificultades técnicas de alineación propiamente dicha.)

Varias veces he fallado en escribir una lista bien organizada de razones por las que AGI te matará. Las personas vienen con diferentes ideas sobre por qué AGI podría sobrevivir y quieren escuchar diferentes obviamente clave puntos abordados en primer lugar. Una fracción de esas personas está muy molesta conmigo si los puntos obviamente más importantes no se abordan de inmediato, y en su lugar abordé diferentes puntos primero.

Habiendo fracasado en resolver este problema de una buena manera, ahora me doy por vencido y lo resuelvo mal con una lista mal organizada de diatribas individuales. No estoy particularmente feliz con esta lista; la alternativa era no publicar nada, y publicar esto parece marginalmente más digno.

Tres puntos sobre el tema general de discusión aquí, numerados para no entrar en conflicto con la lista de letalidad:

-3. Supongo que ya está familiarizado con algunos conceptos básicos y ya sabe qué ‘ortogonalidad‘ y ‘convergencia instrumentalson y por qué son ciertas. La gente ocasionalmente me dice que necesito dejar de pelear viejas guerras aquí, porque, esas personas me dicen, esas guerras ya han sido ganadas dentro de las partes importantes según ellos de la audiencia actual. Supongo que al menos es cierto que ninguno de los principales patrocinadores actuales de EA parece negar visiblemente la ortogonalidad o la convergencia instrumental como tal; entonces, bien. Si no sabe qué son la ‘ortogonalidad’ o la ‘convergencia instrumental’, o no ve por sí mismo por qué son ciertas, necesita una introducción diferente a esta.

-2. Cuando digo que la alineación es letalmente difícil, no estoy hablando de objetivos ideales o perfectos de alineación ‘probable’, ni de alineación total de superinteligencias sobre valores humanos exactos, ni de hacer que las IA produzcan argumentos satisfactorios sobre dilemas morales con los que los humanos razonables no están de acuerdo. sobre, ni lograr una certeza absoluta de que una IA no mate a todos. Cuando digo que la alineación es difícil, quiero decir que en la práctica, usando las técnicas que tenemos, «por favor, no desmontes literalmente a todos con una probabilidad de aproximadamente 1» es una petición demasiado grande que no vamos a conseguir. En lo que a mí respecta, si puede obtener un AGI poderoso que lleva a cabo una tarea de ingeniería sobrehumana fundamental, con un cambio de menos del cincuenta por ciento de matar a más de mil millones de personas, Me lo llevo. Incluso las posibilidades más pequeñas de matar a menos personas serían un buen lujo, pero si puede llegar tan increíblemente lejos como «menos que aproximadamente seguro de matar a todos», entonces probablemente pueda reducir a menos del 5% de posibilidades con solo un poco más de esfuerzo. . Prácticamente toda la dificultad está en llegar a “menos de la certeza de matar literalmente a todos”. Los problemas de los tranvías no son un subproblema interesante en todo esto; si hay sobrevivientes, resolviste la alineación. En este punto, ya no me importa cómo funciona, no me importa cómo llegaste allí, soy agnóstico en cuanto a la metodología que usaste, todo lo que estoy viendo son resultados prospectivos, todo lo que quiero es que tengamos resultados justificables. causa para creer de un AGI pivotalmente útil ‘esto no matará literalmente a todos’. Cualquiera que le diga que estoy pidiendo una «alineación» más estricta que esta ha fallado en la comprensión de lectura. La gran pregunta de la alineación AGI, el desafío básico que digo es demasiado difícil, es obtener mediante cualquier estrategia una posibilidad significativa de que haya sobrevivientes.

-1. Nada de esto se trata de que algo sea imposible en principio. La metáfora que suelo usar es que si un libro de texto de cien años en el futuro cayera en nuestras manos, conteniendo todas las ideas simples que realmente funcionan sólidamente en la práctica, probablemente podríamos construir una superinteligencia alineada en seis meses. Para las personas instruidas en el aprendizaje automático, utilizo como metáfora la diferencia entre las activaciones ReLU y las activaciones sigmoideas. Las activaciones sigmoideas son complicadas y frágiles, y hacen un trabajo terrible al transmitir gradientes a través de muchas capas; Las ReLU son increíblemente simples (para los que no están familiarizados, la función de activación es literalmente max(x, 0)) y funcionan mucho mejor. La mayoría de las redes neuronales durante las primeras décadas del campo utilizaron sigmoides; la idea de ReLU no se descubrió, validó ni popularizó hasta décadas después. Lo que es letal es que no tengo el libro de texto del futuro que nos cuenta todas las soluciones simples que en la vida real funcionan y son sólidas; vamos a hacer todo con sigmoides metafóricos en el primer intento crítico. Ninguna de las dificultades discutidas aquí sobre la alineación AGI es imposible para mí, simplemente para la ciencia humana y la ingeniería, y mucho menos en principio, si tuviéramos 100 años para resolverlo usando reintentos ilimitados, la forma en que la ciencia usualmente tiene un presupuesto de tiempo ilimitado y reintentos ilimitados. Esta lista de letalidades es sobre cosas no estamos en camino de resolver en la práctica a tiempo en el primer intento crítico; nada de esto tiene la intención de hacer una afirmación mucho más fuerte sobre las cosas que son imposible en principio.

Eso dijo:

Aquí, desde mi perspectiva, hay algunas cosas verdaderas diferentes que podrían decirse, para contradecir varias cosas falsas que varias personas diferentes parecen creer, sobre por qué AGI podría sobrevivir en cualquier cosa remotamente parecida a la ruta actual, o cualquier otra ruta que podamos saltar fácilmente a.

Sección a:

Este es un problema muy letal, tiene que ser resuelto de una forma u otra, tiene que ser resuelto en un nivel mínimo de fuerza y ​​dificultad en lugar de varios modos más fáciles con los que algunos sueñan, no tenemos ninguna opción visible de ‘todos’ retirarse para resolver solo problemas seguros y débiles, y fallar en el primer intento realmente peligroso es fatal.

1. Alpha Zero superó todo el conocimiento humano acumulado sobre Go después de un día o más de auto-juego, sin depender de libros de jugadas humanos o juegos de muestra. Cualquiera que confíe en «bueno, alcanzará la capacidad humana en Go, pero luego tendrá dificultades para superar eso porque ya no podrá aprender de los humanos» habría confiado en el vacío. AGI no estará limitado por la capacidad humana o la velocidad de aprendizaje humano. Cosas mucho más inteligentes que los humanos podrían aprender con menos evidencia de la que requieren los humanos tener ideas en sus cerebros; aquí hay límites superiores teóricos, pero esos límites superiores parecen muy altos. (Por ejemplo, cada bit de información que no se pudo predecir por completo puede eliminar como máximo la mitad de la masa de probabilidad de todas las hipótesis bajo consideración). eso nos facilita reaccionar.

2. Un sistema cognitivo con poderes cognitivos suficientemente altos, dado cualquier canal de influencia causal de ancho de banda medio, no tendrá dificultades para impulsar capacidades abrumadoras independientes de la infraestructura humana. El ejemplo concreto que suelo usar aquí es la nanotecnología, porque ha habido un análisis bastante detallado de lo que definitivamente parecen límites inferiores físicamente alcanzables sobre lo que debería ser posible con la nanotecnología, y esos límites inferiores son suficientes para llevar el punto. Mi modelo de límite inferior de «cómo una inteligencia suficientemente poderosa mataría a todos, si no quisiera no hacer eso» es que obtiene acceso a Internet, envía por correo electrónico algunas secuencias de ADN a cualquiera de las muchas empresas en línea que toma una secuencia de ADN en el correo electrónico y le envía proteínas, y soborna/persuade a un humano que no tiene idea de que está tratando con un AGI para mezclar proteínas en un vaso de precipitados, que luego forman una nanofábrica de primera etapa que puede construir el verdadero nanomaquinaria. (Cuando estaba implementando esta visualización por primera vez, los críticos que suenan sabios dijeron: «Ah, pero ¿cómo sabes que incluso una superinteligencia podría resolver el problema del plegamiento de proteínas, si no tuviera ya supercomputadoras del tamaño de un planeta?» pero uno escucha menos de esto después del advenimiento de AlphaFold 2, por alguna extraña razón.) La nanomaquinaria construye bacterias diamantinas, que se replican con la energía solar y el CHON atmosférico, tal vez se agregan en algunos cohetes o chorros en miniatura para que puedan montar la corriente en chorro para expandirse a través de la Tierra. atmósfera, entrar en el torrente sanguíneo humano y esconderse, activar un temporizador. Perder un conflicto con un sistema cognitivo de alta potencia parece al menos tan mortal como «todo el mundo sobre la faz de la Tierra cae repentinamente muerto en el mismo segundo». (Estoy usando construcciones extrañas como ‘alto poder cognitivo’ porque los términos estándar en inglés como ‘inteligente’ o Me parece que ‘inteligente’ funciona en gran medida como sinónimo de estatus. ‘Superinteligencia’ suena para la mayoría de la gente como ‘algo por encima de la cima de la jerarquía de estatus que fue a la doble universidad’, y no entienden por qué eso sería tan peligroso. Los terrícolas no tienen una palabra y, de hecho, ningún concepto nativo estándar que signifique «poder cognitivo realmente útil». Una gran cantidad de fallas en entrar en pánico lo suficiente, me parece que proviene de una falta de apreciación por la increíble letalidad potencial de esta cosa que los terrícolas como cultura no han nombrado).

3. Necesitamos alinearnos correctamente en el ‘primer intento crítico’ en operar a un nivel de inteligencia ‘peligroso’, donde la operación no alineada a un nivel peligroso de inteligencia mata a todos en la Tierra y luego no podemos volver a intentarlo. Esto incluye, por ejemplo: (a) algo lo suficientemente inteligente como para construir un nanosistema que haya sido autorizado explícitamente para construir un nanosistema; o (b) algo lo suficientemente inteligente como para construir un nanosistema y también lo suficientemente inteligente como para obtener acceso no autorizado a Internet y pagarle a un ser humano para que reúna los ingredientes de un nanosistema; o (c) algo lo suficientemente inteligente como para obtener acceso no autorizado a Internet y construir algo más inteligente que él mismo con la cantidad de máquinas que puede piratear; o (d) algo lo suficientemente inteligente como para tratar a los humanos como maquinaria manipulable y que tiene algún canal causal de dos vías autorizado o no autorizado con los humanos; o (e) algo lo suficientemente inteligente como para mejorar lo suficiente como para hacer (b) o (d); etcétera. Podemos recopilar todo tipo de información de antemano. de sistemas menos potentes que no nos matarán si nos equivocamos operándolos; pero una vez que estamos ejecutando sistemas más potentes, ya no podemos actualizarnos con errores suficientemente catastróficos. De ahí viene prácticamente toda la letalidad real, de que tenemos que hacer las cosas bien en el primer intento suficientemente crítico. Si tuviéramos reintentos ilimitados, si cada vez que un AGI destruyera todas las galaxias pudiéramos retroceder en el tiempo cuatro años e intentarlo de nuevo, en cien años descubriríamos qué ideas brillantes realmente funcionaron. Los seres humanos pueden resolver cosas bastante difíciles con el tiempo, cuando tienen muchos intentos; cuando una suposición fallida mata literalmente a todos, eso es más difícil. Que tenemos que hacer bien un montón de cosas clave en el primer intento es de donde proviene real y finalmente la mayor parte de la letalidad; del mismo modo, el hecho de que no haya ninguna autoridad aquí para decirnos una lista de qué es exactamente ‘clave’ y nos matará si nos equivocamos. (Uno comenta que la mayoría de la gente está tan absoluta y rotundamente desprevenida por su educación ‘científica’ para desafiar acertijos pre-paradigmáticos sin supervisión académica autorizada, que ni siquiera se dan cuenta de lo difícil que es eso, o lo increíblemente letal que es exigir hacerlo bien en el primer intento crítico.)

4. No podemos simplemente «decidir no construir AGI» porque las GPU están en todas partes y el conocimiento de los algoritmos se mejora y publica constantemente; 2 años después de que el actor principal tenga la capacidad de destruir el mundo, otros 5 actores tendrán la capacidad de destruir el mundo. El desafío letal dado es resolver dentro de un límite de tiempo, impulsado por la dinámica en la que, con el tiempo, actores cada vez más débiles con una fracción cada vez más pequeña de la potencia informática total, pueden construir AGI y destruir el mundo. Todos los actores poderosos que se abstienen al unísono de cometer suicidio solo retrasan este límite de tiempo, no lo levantan, a menos que el progreso del hardware y el software de la computadora se detenga por completo en toda la Tierra. El estado actual de esta cooperación para que todos los grandes actores se abstengan de hacer cosas estúpidas es que, en la actualidad, algunos grandes actores con muchos investigadores y poder de cómputo están dirigidos por personas que desdeñan abiertamente todo lo que se habla de la seguridad de AGI (por ejemplo, Facebook AI Research ). Tenga en cuenta que la necesidad de resolver la alineación AGI solamente dentro de un límite de tiempo, pero con reintentos seguros ilimitados para una experimentación rápida en el sistema de potencia completa; o solamente en el primer intento crítico, pero con límite de tiempo ilimitado; ambos serían desafíos terriblemente amenazantes para la humanidad según los estándares históricos individualmente.

5. No podemos simplemente construir un sistema muy débil, que es menos peligroso porque es tan débil, y declarar la victoria; porque luego habrá más actores que tengan la capacidad de construir un sistema más fuerte y uno de ellos lo hará. En el pasado, también llamé a esto el intercambio ‘seguro pero inútil’, o ‘seguro versus útil’. La gente sigue diciendo «¿por qué no usamos IA solo para hacer X, eso parece seguro?» y la respuesta casi siempre es «hacer X, de hecho, requiere una cognición muy poderosa que no es pasivamente segura» o, incluso más comúnmente, » porque limitarte a hacer X no evitará que Facebook AI Research destruya el mundo seis meses después”. Si todo lo que necesitas es un objeto que no haga cosas peligrosas, puedes probar con una esponja; una esponja es muy pasivamente segura. Sin embargo, construir una esponja no evita que Facebook AI Research destruya el mundo seis meses después cuando alcancen al actor principal.

6. Necesitamos alinear el desempeño de alguna tarea grande, un ‘acto fundamental’ que evita que otras personas construyan un AGI no alineado que destruya el mundo. Si bien la cantidad de actores con AGI es poca o una, deben ejecutar algún «acto fundamental», lo suficientemente fuerte como para voltear el tablero de juego, utilizando un AGI lo suficientemente poderoso como para hacerlo. No basta con poder alinear un débil sistema: necesitamos alinear un sistema que pueda hacer algo cosa muy grande. El ejemplo que suelo dar es «quemar todas las GPU». Esto no es lo que creo que realmente querrías hacer con un AGI poderoso: las nanomáquinas tendrían que operar en un entorno abierto increíblemente complicado para cazar todas las GPU, y eso sería innecesariamente difícil de alinear. Sin embargo, todos los actos fundamentales conocidos se encuentran actualmente fuera de la ventana de Overton, y espero que permanezcan allí. Así que elegí un ejemplo en el que si alguien dice «¿cómo te atreves a proponer quemar todas las GPU?» Puedo decir «Oh, bueno, yo no Realmente abogar por hacer eso; es solo una leve sobreestimación del nivel de poder aproximado de lo que tendrías que hacer, y el nivel aproximado de cognición de la máquina requerida para hacer eso, a fin de evitar que alguien más destruya el mundo en seis meses o tres años”. (Si no fuera una sobreestimación leve, entonces ‘quemar todas las GPU’ sería en realidad la tarea fundamental mínima y, por lo tanto, la respuesta correcta, y no podría negarlo). Muchas propuestas de alineación que suenan inteligentes se desmoronan tan pronto como pregunte «¿Cómo podría usar esto para alinear un sistema que podría usar para apagar todas las GPU del mundo?» porque entonces está claro que el sistema no puede hacer algo tan poderoso o, si puede hacer eso, el sistema no sería fácil de alinear. Un quemador de GPU también es un sistema lo suficientemente poderoso como para construir nanotecnología, y supuestamente autorizado para hacerlo, por lo que requiere operar en un dominio peligroso con un nivel peligroso de inteligencia y capacidad; y esto va junto con cualquier intento no fantasioso de nombrar una forma en que un AGI podría cambiar el mundo de tal manera que media docena de otros posibles constructores de AGI no destruyan el mundo 6 meses después.

7. La razón por la que nadie en esta comunidad ha nombrado con éxito un ‘acto débil fundamental’ en el que haces algo lo suficientemente débil con un AGI para ser pasivamente seguro, pero lo suficientemente poderoso como para evitar que cualquier otro AGI destruya el mundo un año después, y sin embargo también nosotros no puedo ir a hacer eso ahora mismo y necesito esperar a la IA, ¿es eso nada de eso existe. No hay ninguna razón por la que debería existir. No hay una razón ingeniosa y elaborada por la que existe, pero nadie puede verlo. Se necesita mucho poder para hacer algo en el mundo actual que evite que surja cualquier otro AGI; nada que pueda hacer eso es pasivamente seguro en virtud de su debilidad. Si no puede resolver el problema en este momento (que no puede, porque se opone a otros actores que no quieren que se resuelva y esos actores están más o menos al mismo nivel que usted), entonces está recurriendo a algún sistema cognitivo que puede hacer cosas que no podrías averiguar cómo hacer por ti mismo, que no estabas Cerrar a darme cuenta porque tu no estas Cerrar a poder, por ejemplo, quemar todas las GPU. Quemar todas las GPU sería Realmente evitar que Facebook AI Research destruya el mundo seis meses después; El material de Overton sobre ‘mejorar la epistemología pública liberando GPT-4 en Twitter para proporcionar argumentos científicamente alfabetizados sobre todo’ será genial, pero en realidad no evitará que Facebook AI Research destruya el mundo seis meses. más tarde, o alguna colaboración ansiosa de código abierto de destruir el mundo un año después si logra detener FAIR específicamente. No hay actos débiles fundamentales.

8. Los mejores y más fáciles de encontrar mediante algoritmos de optimización para resolver problemas que queremos que resuelva una IA, se generalizan fácilmente a problemas que preferimos que la IA no resuelva.; no se puede construir un sistema que solo tenga la capacidad de conducir autos rojos y no autos azules, porque todos los algoritmos de manejo de autos rojos se generalizan a la capacidad de conducir autos azules.

9. Los constructores de un sistema seguro, por hipótesis de que tal cosa sea posible, necesitarían operar su sistema en un régimen en el que tenga la capacidad para matar a todos o hacerse aún más peligroso, pero ha sido diseñado con éxito para no hacer eso. Ejecutar AGI que hacen algo fundamental no es pasivamente seguro, son el equivalente de los núcleos nucleares que requieren propiedades de diseño mantenidas activamente para no volverse supercríticas y fundirse.

Sección B:

De acuerdo, pero como todos sabemos, el aprendizaje automático moderno es como un genio al que solo le das un deseo, ¿verdad? Expresado como algo misterioso llamado ‘función de pérdida’, pero que es básicamente equivalente a una frase de deseo en inglés, ¿verdad? Y luego, si vierte suficiente poder de cómputo, obtiene su deseo, ¿verdad? Entonces, ¿por qué no entrenar una pila gigante de capas de transformadores en un conjunto de datos de agentes que hacen cosas buenas y no malas, agregar la palabra ‘corregibilidad’ en alguna parte, aumentar esa potencia informática y obtener un AGI alineado?

Bloque B.1: El salto distributivo.

10. No puede entrenar la alineación ejecutando cogniciones letalmente peligrosas, observando si las salidas matan, engañan o corrompen a los operadores, asignando una pérdida y realizando un aprendizaje supervisado. En algo como el paradigma estándar de ML, necesitaría generalizar de alguna manera la optimización para la alineación que hizo en condiciones seguras, a través de un gran cambio de distribución a condiciones peligrosas. (Alguna generalización de esto parece que tendría que ser cierto incluso fuera de ese paradigma; no estaría trabajando en una superinteligencia no alineada en vivo para alinearlo). Este solo es un punto que es suficiente para matar muchas propuestas ingenuas de personas que nunca hicieron o pudieron esbozar concretamente un escenario específico de qué entrenamiento harían, para alinear qué resultado, razón por la cual, por supuesto, nunca esbozan concretamente algo así. Los AGI potentes que hacen cosas peligrosas que lo matarán si no se alinean, deben tener una propiedad de alineación que generalice mucho más allá de la distribución de las operaciones de construcción/entrenamiento más seguras que no lo mataron. Aquí es de donde proviene una gran cantidad de letalidad en cualquier cosa que se parezca remotamente al paradigma actual. La operación no alineada a un nivel peligroso de capacidad de inteligencia* lo matará; por lo tanto, si está comenzando con un sistema no alineado y etiquetando las salidas para que aprenda la alineación, el régimen de capacitación o el régimen de construcción debe estar operando en un nivel más bajo de capacidad de inteligencia * que es pasivamente seguro, donde actualmente no está alineado operación no representa ninguna amenaza. (Tenga en cuenta que cualquier cosa sustancialmente más inteligente que usted representa una amenaza dado ninguna nivel realista de capacidad. Por ejemplo, «ser capaz de producir resultados que los humanos miran» es probablemente suficiente para que un AGI generalmente mucho más inteligente que el humano navegar su camino fuera de los sistemas causales que son los humanosespecialmente en el mundo real donde alguien entrenó el sistema con terabytes de texto de Internet, en lugar de mantenerlo ignorante de las causas latentes de su código fuente y entornos de entrenamiento).

11. Si la maquinaria cognitiva no se generaliza más allá de la distribución en la que realizó toneladas de entrenamiento, no puede resolver problemas del orden de ‘construir nanotecnología’ donde sería demasiado costoso ejecutar un millón de carreras de entrenamiento sin poder construir nanotecnología. . No hay acto central tan débil; no hay ningún caso conocido en el que pueda incorporar un nivel seguro de habilidad en un entorno seguro en el que pueda hacer millones de carreras de forma económica e implementar esa capacidad para salvar el mundo y evitar que el próximo proyecto AGI destruya el mundo dos años después. No se conocen actos fundamentales de debilidad como este, y no por falta de gente que los busque. Entonces, nuevamente, termina necesitando alineación para generalizar la distribución de la capacitación, no solo porque el entorno de capacitación debe ser seguro, sino porque el entorno de capacitación probablemente también deba serlo. más económico que evaluar algún dominio del mundo real en el que el AGI necesita hacer un gran acto. No obtiene 1000 intentos fallidos de grabar todas las GPU, porque la gente lo notará, incluso dejando de lado las consecuencias del éxito de las capacidades y la falla de alineación.

12. Operar a un nivel altamente inteligente es un cambio drástico en la distribución de operar a un nivel menos inteligente, abriendo nuevas opciones externas y probablemente abriendo aún más nuevas opciones y modos internos. Los problemas que se materializan en niveles altos de inteligencia y peligro pueden no aparecer en niveles seguros más bajos de inteligencia, o pueden reaparecer después de haber sido suprimidos por un primer parche.

13. Muchos problemas de alineación de la superinteligencia no aparecerán de forma natural en niveles de capacidad pre-peligrosos y pasivamente seguros.. Considere el comportamiento interno ‘cambie su comportamiento externo para que deliberadamente se vea más alineado y engañe a los programadores, operadores y posiblemente a cualquier función de pérdida que optimice sobre usted’. Este problema es uno que aparecerá en el nivel superinteligente; si, siendo por lo demás ignorantes, suponemos que está entre los mediana tales problemas en términos de cómo temprano aparece naturalmente en sistemas anteriores, luego alrededor medio de los problemas de alineación de la superinteligencia se materializarán primero de forma natural después ese primero comienza a aparecer. Dado correcto previsión de qué problemas se materializarán naturalmente más tarde, uno podría tratar de materializar deliberadamente tales problemas antes y obtener algunas observaciones de ellos. Esto ayuda en la medida en que (a) pronosticamos correctamente todos los problemas que aparecerán más adelante, o algunos de ellos; (b) que logremos materializar preventivamente un superconjunto de problemas que aparecerán más adelante; y (c) que realmente podemos resolver, en el laboratorio anterior que está fuera de distribución para nosotros en relación con los problemas reales, aquellos problemas de alineación que serían letales si los manejamos mal cuando se materialicen más tarde. anticipando todos de los realmente peligrosos, y luego materializarlos con éxito, en la forma correcta para que las soluciones tempranas se generalicen a soluciones posteriores, suena posiblemente un poco difícil.

14. Algunos problemascomo ‘el AGI tiene una opción que (parece) podría matar y reemplazar con éxito a los programadores para optimizar completamente su entorno’, parece que su orden natural de aparición podría ser que aparecen por primera vez solo en dominios completamente peligrosos. Realmente en realidad tener un claro opción para persuadir a los operadores a nivel cerebral o escapar a Internet, construir nanotecnología y destruir a toda la humanidad, de una manera en la que tenga completamente claro que conoce los hechos relevantes y estime que solo no vale la pena. bajo la probabilidad de aprender algo que cambie su estrategia preferida si espera otro mes mientras crece aún más en capacidad, es una opción que primero se evalúa de verdad en el punto en que un AGI espera que pueda derrotar a sus creadores. Podemos intentar manifestar un eco de ese escenario aparente en dominios de juguetes anteriores. Intentar entrenar por descenso de gradiente contra ese comportamiento, en ese dominio de juguete, es algo que esperaría producir parches locales no particularmente coherentes para los procesos de pensamiento, que romperían con casi certeza dentro de una superinteligencia que generaliza mucho más allá de la distribución de entrenamiento. y pensando pensamientos muy diferentes. Además, los propios programadores y operadores, que están acostumbrados a operar en dominios que no son del todo peligrosos, están operando fuera de distribución cuando entran en dominios peligrosos; nuestras metodologías pueden romperse en ese momento.

15. Parece probable que se obtengan ganancias de capacidad rápidas, y pueden romper muchas invariantes previas requeridas por la alineación simultáneamente. Dada la previsión insuficiente de los operadores, esperaría que muchos de esos problemas aparecieran aproximadamente simultáneamente después de una fuerte ganancia de capacidad. Véase, de nuevo, el caso de la inteligencia humana. No rompimos la alineación con el función de pérdida externa de ‘aptitud reproductiva inclusiva’, inmediatamente después de la introducción de la agricultura, algo así como 40,000 años en un despegue de Cro-Magnon de 50,000 años, ya que se estaba ejecutando muy rápidamente en relación con el ciclo de optimización externo de la selección natural. En cambio, obtuvimos mucha tecnología más avanzada que la del entorno ancestral, incluida la anticoncepción, en una ráfaga muy rápida en relación con la velocidad del ciclo de optimización externo, al final del juego de inteligencia general. Empezamos a reflexionar mucho más sobre nosotros mismos, empezamos a ser programados mucho más por la evolución cultural, y muchas, muchas suposiciones que subyacen a nuestra alineación en el entorno de entrenamiento ancestral se rompieron simultáneamente. (Quizás la gente racionalizará las razones por las que esta descripción abstracta no se traslada al descenso de gradiente; por ejemplo, «el descenso de gradiente tiene menos cuello de botella de información». Mi modelo de esta variedad de lectores tiene una visión interna, que ellos etiquetarán como externa. punto de vista, que asigna gran relevancia a algunos otros puntos de datos que son no casos observados de un ciclo de optimización externo que produce una inteligencia general interna, y asigna poca importancia a nuestro único punto de datos que en realidad presenta el fenómeno en cuestión. Cuando un bucle de optimización externo realmente producía inteligencia general, rompía la alineación después de volverse general, y lo hacía relativamente tarde en el juego de capacidad y conocimiento de acumulación de inteligencia general, casi inmediatamente antes de que se volviera ‘letalmente’ peligroso en relación con el bucle de optimización externo. de la selección natural. Considere el escepticismo, si alguien está ignorando esta advertencia, especialmente si no están presentando cosas igualmente letales y peligrosas que dicen que saldrán mal).

Apartado B.2: Dificultades centrales de alineación exterior e interior.

dieciséis. Incluso si entrena muy duro en una función de pérdida exacta, eso no crea una representación interna explícita de la función de pérdida dentro de una IA que luego continúa buscando esa función de pérdida exacta en entornos de distribución desplazada. Los seres humanos no persiguen explícitamente la aptitud genética inclusiva; la optimización externa, incluso en una función de pérdida muy simple y muy exacta, no produce una optimización interna en esa dirección. Esto pasa en la práctica en la vida real, es lo que paso en el único caso que conocemosy me parece que hay profundas razones teóricas para esperar que vuelva a suceder: la primero Las soluciones semialineadas hacia el exterior encontradas, en el orden de búsqueda de un proceso de optimización acotado del mundo real, no son soluciones alineadas hacia el interior. Esto es suficiente por sí solo, incluso ignorando muchos otros elementos en esta lista, para descartar categorías enteras de propuestas de alineación ingenuas que asumen que si optimizas un montón en una función de pérdida calculada usando algún concepto simple, obtienes una alineación interna perfecta en ese concepto. .

17. En términos más generales, un superproblema de ‘optimización externa no produce alineación interna’ es que en el paradigma de optimización actual, no hay una idea general de cómo obtener propiedades internas particulares en un sistema, o verificar que están allí, en lugar de solo las externas observables sobre las que puede ejecutar una función de pérdida. Este es un problema cuando intenta generalizar fuera de la distribución de entrenamiento original porque, por ejemplo, los comportamientos externos que ve podrían haber sido producidos por un sistema interno desalineado que deliberadamente produce comportamientos externos que lo engañarán. No sabemos cómo introducir fragmentos de información en el interno sistema en lugar del exterior comportamientos, de cualquier manera sistemática o general, en el paradigma de optimización actual.

18. No hay una verdad básica cartesiana-sensorial confiable (calculadora confiable de función de pérdida) sobre si una salida está ‘alineada’, porque algunas salidas destruyen (o engañan) a los operadores humanos y producen una cadena causal ambiental diferente detrás de la función de pérdida registrada externamente. Es decir, si le muestra a un agente una señal de recompensa que está siendo generada actualmente por humanos, la señal no es en general a verdad de tierra perfecta confiable sobre qué tan alineada estaba una acción, porque otra forma de producir una señal de recompensa alta es engañar, corromper o reemplazar a los operadores humanos con un sistema causal diferente que genera esa señal de recompensa. Cuando le muestra a un agente una señal de recompensa ambiental, no le está mostrando algo que sea una verdad básica confiable acerca de si el sistema hizo lo que usted quería que hiciera; incluso si termina perfectamente alineado internamente en esa señal de recompensa, o aprendiendo algún concepto que exactamente corresponde a ‘estados deseados del entorno que dan como resultado el envío de una señal de alta recompensa’, un AGI que optimice fuertemente esa señal lo matará, porque la señal de recompensa sensorial no era una verdad básica sobre la alineación (como lo vieron los operadores).

19. Más generalmente, no existe una forma conocida de utilizar el paradigma de las funciones de pérdida, las entradas sensoriales y/o las entradas de recompensa, para optimizar algo dentro de un sistema cognitivo para señalar cosas particulares dentro del entorno – apuntar a eventos latentes y objetos y propiedades en el medio ambiente, en vez de funciones relativamente superficiales de los datos de los sentidos y la recompensa. Esto no quiere decir que nada en el objetivo del sistema (cualquier objetivo accidentalmente termine siendo optimizado internamente) podría señalar algo en el entorno por accidente. Los humanos terminaron señalando sus entornos al menos parcialmente, aunque también tenemos muchos indicadores motivacionales orientados internamente. Pero en la medida en que el paradigma actual funcione, las propiedades de diseño en papel dicen que solo funciona para alinearse con funciones directas conocidas de datos sensoriales y funciones de recompensa. Todos estos te matan si son optimizados por una inteligencia lo suficientemente poderosa, porque implican estrategias como «matar a todos en el mundo usando nanotecnología para atacar antes de que sepan que están en una batalla, y tener el control de tu botón de recompensa para siempre». . simplemente no lo es verdadero que conocemos una función en la entrada de la cámara web, de modo que cada mundo con esa cámara web que muestra las cosas correctas es seguro para nosotros, las criaturas fuera de la cámara web. Este problema general es un hecho del territorio, no del mapa; es un hecho sobre el entorno real, no el optimizador particular, que existen posibilidades letales para nosotros en algunos entornos posibles que subyacen a cada entrada sensorial dada.

20. Los operadores humanos son falibles, frágiles y manipulables. Los evaluadores humanos cometen errores sistemáticos: errores regulares, descriptibles de forma compacta y predecibles. A fielmente aprender una función de la ‘retroalimentación humana’ es aprender (desde nuestro punto de vista externo) una descripción infiel de las preferencias humanas, con errores que no son aleatorios (desde el punto de vista externo de lo que esperábamos transferir). Si aprendes perfectamente y maximizas perfectamente el referente de recompensas asignadas por operadores humanos, eso los mata. Es un hecho sobre el territorio, no sobre el mapa, sobre el entorno, no sobre el optimizador, que el mejor predictivo La explicación de las respuestas humanas es aquella que predice los errores sistemáticos en nuestras respuestas y, por lo tanto, es un concepto psicológico que predice correctamente las puntuaciones más altas que se asignarían a los casos que producen errores humanos.

21. Hay algo así como una sola respuesta, o un solo grupo de respuestas, para preguntas como «¿Cómo es realmente el medio ambiente?» y ‘¿Cómo descifro el entorno?’ y ‘¿Cuál de mis posibles resultados interactúa con la realidad de una manera que hace que la realidad tenga ciertas propiedades?’, donde un ciclo de optimización externo simple empujará directamente a los optimizados a este cubo. Cuando tienes una creencia equivocada, la realidad golpea tus predicciones equivocadas. Cuando tiene un actualizador de creencias roto, la realidad golpea su mecanismo predictivo roto a través de pérdidas predictivas, y una actualización de descenso de gradiente soluciona el problema de una manera simple que puede ser coherente con todas las demás cosas predictivas. Por el contrario, cuando se trata de elegir una función de utilidad, existen grados de libertad ilimitados y múltiples puntos fijos reflexivamente coherentes. La realidad no «contraataca» contra las cosas que están alineadas localmente con la función de pérdida en un rango particular de casos de prueba, pero que están desalineadas globalmente en un rango más amplio de casos de prueba. Esta es la historia muy abstracta de por qué los homínidos, una vez que finalmente empezaron a generalizar, generalizaron sus capacidades a los alunizajes, pero su la optimización interna ya no se adhería muy bien al objetivo de optimización externa de ‘aptitud reproductiva inclusiva relativa’, a pesar de que en su entorno ancestral estaban optimizados muy estrictamente en torno a esta única cosa y nada más. Esta dinámica abstracta es algo que esperaría que fuera cierto sobre los bucles de optimización externos del orden de la ‘selección natural’ y el ‘descenso de gradiente’. El resultado central: Las capacidades se generalizan más allá de la alineación una vez que las capacidades comienzan a generalizarse más allá.

22. Hay una estructura central relativamente simple que explica por qué funcionan las máquinas cognitivas complicadas; razón por la cual existe algo así como inteligencia general y no solo un montón de soluciones de propósito especial no relacionadas; Es por eso que las capacidades se generalizan después de que la optimización externa las infunde en algo que se ha optimizado lo suficiente como para convertirse en un poderoso optimizador interno. El hecho de que esta estructura central sea simple y se relacione genéricamente con entornos de alta estructura de baja entropía Es por eso que los humanos pueden caminar en la Luna. No hay una verdad análoga acerca de que haya un núcleo simple de alineaciónespecialmente no uno que es aún más fácil para encontrar el descenso de gradiente de lo que habría sido para la selección natural simplemente encontrar ‘querer aptitud reproductiva inclusiva’ como una solución bien generalizadora dentro de los humanos ancestrales. Por lo tanto, las capacidades se generalizan más fuera de la distribución que de la alineación, una vez que comienzan a generalizarse.

23. La corregibilidad es antinatural para el razonamiento consecuencialista; “no puedes traer el café si estás muerto” para casi todos los tipos de café. Nosotros (MIRI) intentado y fallado para encontrar una fórmula coherente para un agente que se dejaría cerrar (sin que ese agente intentara cerrarse activamente). Además, muchas líneas de razonamiento anti-corregibles como esta solo pueden aparecer primero en altos niveles de inteligencia.

24. Hay dos enfoques fundamentalmente diferentes que puede tomar potencialmente para la alineación, que son irresolubles por dos conjuntos diferentes de razones; por lo tanto, al confundirse y ambiguarse entre los dos enfoques, puede confundirse acerca de si la alineación es necesariamente difícil. El primer enfoque es construir un Sovereign de estilo CEV que quiera exactamente lo que extrapolamos y, por lo tanto, sea seguro optimizar todas las galaxias futuras sin aceptar ningún aporte humano que intente detenerlo. El segundo curso es construir AGI corregible que no quiere exactamente lo que queremos, y sin embargo, de alguna manera falla en matarnos y apoderarse de las galaxias a pesar de que es un incentivo convergente allí.

  1. Lo primero en general, o CEV específicamente, es impracticable porque la complejidad de lo que debe alinearse o metaalinearse para nuestros valores reales reales está fuera del alcance de nuestro PRIMER INTENTO en AGI. Sí, quiero decir específicamente que el conjunto de datos, algoritmo de metaaprendizaje y lo que se necesita aprender, está lejos de nuestro alcance para nuestro primer intento. No es solo no codificable a mano, es no enseñable en el primer intento porque lo que estás tratando de enseñar es demasiado raro y complicado.
  2. La segunda cosa parece impracticable (menos que CEV, pero letalmente inviable) porque carreras de corregibilidad contrarrestar activamente a comportamientos instrumentalmente convergentes dentro de un núcleo de inteligencia general (la capacidad que generaliza mucho más allá de su distribución original). No estás tratando de hacer que tenga una opinión sobre algo en lo que el núcleo era previamente neutral. Está tratando de tomar un sistema entrenado implícitamente en muchos problemas aritméticos hasta que su maquinaria comenzó a reflejar el núcleo común coherente de la aritmética, y hacer que diga que, como caso especial, 222 + 222 = 555. Tal vez pueda entrenar algo para haga esto en una distribución de entrenamiento en particular, pero es increíblemente probable que se rompa cuando le presente nuevos problemas matemáticos muy por fuera de esa distribución de entrenamiento, en un sistema que generaliza con éxito capacidades tan lejos.

Apartado B.3: Dificultades centrales de suficientemente bueno y útil transparencia / interpretabilidad.

25. No tenemos idea de lo que realmente está pasando dentro de las gigantes matrices inescrutables y tensores de números de coma flotante.. Dibujar gráficos interesantes de dónde está enfocando la atención una capa transformadora no ayuda si la pregunta que necesita respuesta es «¿Entonces estaba planeando cómo matarnos o no?»

26. Incluso si supiéramos lo que estaba pasando dentro de las matrices inescrutables gigantes mientras el AGI todavía era demasiado débil para matarnos, esto solo resultaría en que muriéramos con más dignidad, si DeepMind se negara a ejecutar ese sistema y permitiera que Facebook AI Research destruyera el mundo dos años después. Saber que un sistema de matrices inescrutables de fuerza media planea matarnos no nos permite construir un sistema de matrices inescrutables de alta resistencia que no planea matarnos..

27. Cuando optimiza explícitamente contra un detector de pensamientos no alineados, está optimizando parcialmente para pensamientos más alineados y optimizando parcialmente para pensamientos no alineados que son más difíciles de detectar. Optimizar contra un pensamiento interpretado optimiza contra la interpretabilidad.

28. El AGI es más inteligente que nosotros en cualquier dominio en el que intentemos operarlo, por lo que no podemos verificar mentalmente todas las posibilidades que examina, y no podemos ver todas las consecuencias de sus resultados usando nuestro propio talento mental. Una poderosa IA busca partes del espacio de opciones que nosotros no buscamos y no podemos prever todas sus opciones..

29. Los resultados de un AGI pasan por un enorme dominio que no conocemos del todo (el mundo real) antes de que tengan sus consecuencias reales. Los seres humanos no pueden inspeccionar la salida de un AGI para determinar si las consecuencias serán buenas.

30. Cualquier acto fundamental que no sea algo que podamos hacer en este momento, se aprovechará de que AGI descubra cosas sobre el mundo que no conocemos para que pueda hacer planes que no podríamos hacer nosotros mismos. Sabe, al menos, el hecho que no sabíamos previamente, que alguna secuencia de acción da como resultado el mundo que queremos. Entonces los humanos no serán competentes para usar su propio conocimiento del mundo para descifrar todos los resultados de esa secuencia de acción. Una IA cuya secuencia de acción puede comprender completamente todos los efectos, antes de que se ejecute, es mucho más débil que los humanos en ese dominio; no podrías hacer la misma garantía sobre un humano no alineado tan inteligente como tú y tratando de engañarte. No hay un resultado fundamental de un AGI que sea humanamente verificable y que pueda usarse para salvar el mundo de manera segura, pero solo después de verificarlo.; esta es otra forma de acto débil fundamental que no existe.

31. Una inteligencia con conciencia estratégica puede elegir que sus resultados visibles tengan la consecuencia de engañarlo, incluso sobre cuestiones tales como si la inteligencia ha adquirido conciencia estratégica; no puede confiar en la inspección del comportamiento para determinar hechos sobre una IA sobre los que esa IA podría querer engañarlo. (Incluyendo qué tan inteligente es, o si ha adquirido una conciencia estratégica).

32. El pensamiento humano expone parcialmente solo una capa superficial externa parcialmente escrutable. Las palabras sólo trazan nuestros pensamientos reales. Las palabras no son una representación de datos completa de AGI en su estilo original. Las partes inferiores del pensamiento humano no están expuestas para el aprendizaje por imitación directa y no se pueden poner en ningún conjunto de datos. Esto hace que sea difícil y probablemente imposible entrenar un sistema poderoso completamente en la imitación de palabras humanas u otros contenidos legibles por humanos.que no son más que subsistemas empobrecidos de los pensamientos humanos; a no ser que ese sistema es lo suficientemente poderoso como para contener inteligencias internas que descubren a los humanosy en ese momento ya no funciona realmente como pensamiento humano imitativo.

33. La IA no piensa como tú, la IA no tiene pensamientos construidos a partir de los mismos conceptos que usas, es completamente extraño en una escala asombrosa. Nadie sabe qué diablos está pensando GPT-3, no solamente porque las matrices son opacas, sino porque las cosas dentro de ese contenedor opaco es, muy probablemente, increíblemente extraño, nada que se traduzca bien en el pensamiento humano comprensible, incluso si pudiéramos ver más allá de la pared gigante de números de punto flotante a lo que hay detrás.

Apartado B.4: Esquemas varios inviables.

34. Los esquemas de coordinación entre superinteligencias no son cosas en las que los humanos puedan participar (por ejemplo, porque los humanos no pueden razonar de forma fiable sobre el código de las superinteligencias); un sistema “multipolar” de 20 superinteligencias con diferentes funciones de utilidad, más la humanidad, tiene un equilibrio natural y obvio que parece que “las 20 superinteligencias cooperan entre sí pero no con la humanidad”.

35. Los esquemas para enfrentar IA «diferentes» entre sí dejan de funcionar si esas IA avanzan hasta el punto de poder coordinarse a través del razonamiento sobre (distribuciones de probabilidad sobre) el código de los demás. Cualquier sistema de agentes lo suficientemente inteligentes probablemente pueda comportarse como un solo agente, incluso si imagina que los está enfrentando entre sí. Por ejemplo, si configura un AGI que secretamente es un maximizador de clips para verificar la salida de un diseñador de nanosistemas que secretamente es un maximizador de grapas, incluso si el diseñador de nanosistemas no puede deducir lo que realmente quiere el maximizador de clips (a saber, clips) , aún podría comprometerse lógicamente a compartir la mitad del universo con cualquier agente que verifique sus diseños si esos diseños estuvieran permitidos, si el agente verificador puede verificar el compromiso lógico del sistema de sugerencias y, por lo tanto, depender lógicamente de él (lo que excluye las inteligencias de nivel humano). O, si prefiere catástrofes simplificadas sin ninguna teoría de decisión lógica, el sugerente podría enterrar en su diseño de nanosistema el código para una nueva superinteligencia que dividirá visiblemente (para un verificador sobrehumano) el universo entre el diseñador del nanosistema y el verificador de diseño.

36. Lo que hace que un acondicionador de aire sea ‘mágico’ desde la perspectiva de, digamos, el siglo XIII, es que incluso si les muestra correctamente el diseño del acondicionador de aire con anticipación, no podrán entender al ver ese diseño por qué sale el aire. fuera de combate; el diseño explota las regularidades del entorno, las reglas del mundo, las leyes de la física, que no conocen. El dominio del pensamiento humano y el cerebro humano es muy poco conocido por nosotros, y exhibe fenómenos como ilusiones ópticas, hipnosis, psicosis, manía o simples imágenes secundarias producidas por fuertes estímulos en un lugar que dejan efectos neuronales en otro lugar. Tal vez una superinteligencia no podría derrotar a un humano en un ámbito tan simple como el tres en raya lógico; si estás luchando en un dominio increíblemente complicado que entiendes mal, como las mentes humanas, debes esperar ser derrotado por la ‘magia’ en el sentido de que incluso si vieras su estrategia no entenderías por qué funcionó esa estrategia. AI-boxing solo puede funcionar en AGI relativamente débiles; los operadores humanos no son sistemas seguros.

Sección C:

De acuerdo, esos son algunos problemas importantes, pero se está progresando mucho para resolverlos, ¿verdad? Hay todo un campo que se autodenomina «Seguridad de IA» y muchas organizaciones importantes están expresando una preocupación muy grave sobre cuán «seguras» y «éticas» son.

37. Hay un patrón que se repite con bastante frecuencia, durante todas las veces que la Tierra ha girado alrededor del Sol, en el que un joven científico de ojos brillantes, un ingeniero joven, un empresario joven, procede con pleno optimismo de ojos brillantes para desafiar algún problema que resulta ser realmente bastante difícil. Muy a menudo, los cínicos veteranos del campo intentan advertirles sobre esto, y los jóvenes de ojos brillantes no escuchan, porque, como, ¿quién quiere escuchar sobre todo eso? ¡Quieren ir a resolver el problema! Luego, esta persona es golpeada en la cabeza por la realidad cuando descubre que su brillante teoría especulativa está equivocada, en realidad es muy difícil construir la cosa porque sigue rompiéndose, y la sociedad no está tan ansiosa por adoptar su ingeniosa innovación. como podrían haber esperado, en un proceso que eventualmente produce un nuevo veterano cínico. Lo cual, si no es literalmente óptimo, supongo que es un buen ciclo de vida para asentir con la cabeza en una especie de espectáculo de la naturaleza. A veces haces algo por el primero tiempo y allí están no hay veteranos cínicos para advertir a nadie y la gente puede ser De Verdad optimista sobre cómo irá; por ejemplo, el proyecto inicial de investigación de verano de Dartmouth sobre inteligencia artificial en 1956: “Se intentará descubrir cómo hacer que las máquinas utilicen el lenguaje, formen abstracciones y conceptos, resuelvan tipos de problemas que ahora están reservados a los humanos y se mejoren a sí mismos. Creemos que se puede lograr un avance significativo en uno o más de estos problemas si un grupo cuidadosamente seleccionado de científicos trabajan juntos durante un verano”. Esto es menos de un plan de supervivencia viable para su planeta si el primer gran fracaso de los jovencitos de ojos brillantes mata literalmente todos antes de que, como era de esperar, puedan ser golpeados en la cabeza con la noticia de que hubo todo tipo de dificultades imprevistas y razones por las que las cosas fueron difíciles. No hay veteranos cínicos, en este caso, porque todos en la Tierra están muertos. Una vez que comience a sospechar que se encuentra en esa situación, debe hacer lo bayesiano y actualizar ahora a la vista que previsiblemente actualizará más adelante: darse cuenta de que se encuentra en una situación en la que es esa persona de ojos brillantes que va a te encontrarás con Dificultades Inesperadas más tarde y terminarás siendo un veterano cínico, o lo serías, excepto por la parte en la que estarás muerto junto con todos los demás. Y conviértete en ese veterano cínico de inmediato, antes de que la realidad te golpee la cabeza en la forma de que todos mueran y tú no puedas aprender. Todos los demás parecen sentir que, mientras la realidad no los haya golpeado en la cabeza y los haya abofeteado con las dificultades reales, son libres de seguir viviendo el ciclo de vida estándar y desempeñar su papel en el guión y seguir siendo jóvenes de ojos brillantes; no hay veteranos cínicos que les adviertan lo contrario, después de todo, y no hay pruebas de que todo no vaya a salir hermosamente fácil y bien, dada su total ignorancia de ojos brillantes de cuáles podrían ser esas dificultades posteriores.

38. No me parece que el campo de la ‘seguridad de la IA’ esté siendo remotamente productivo en la actualidad para abordar sus enormes problemas letales. Estos problemas están, de hecho, fuera de alcance; el campo contemporáneo de la seguridad de la IA ha sido seleccionado para contener a las personas que van a trabajar en ese campo de todos modos. Casi todos ellos están allí para abordar problemas en los que parecen tener éxito y publican un artículo que afirma haberlo logrado; si pueden hacer eso y obtener fondos, ¿por qué se embarcarían en un proyecto mucho más desagradable de intentar algo más difícil en lo que fracasarán, solo para que la especie humana pueda morir con un poco más de dignidad? Este campo no está haciendo un progreso real y no tiene una función de reconocimiento para distinguir el progreso real si se produjo. Podría inyectar mil millones de dólares en él y produciría principalmente ruido para ahogar el pequeño progreso que se estaba logrando en otros lugares.

39. Descubrí estas cosas usando el cadena nula como entrada, y, francamente, a mí me cuesta mucho sentirme esperanzado en obtener un trabajo de alineación real de alguien que anteriormente se sentó a esperar que alguien más le introdujera un argumento persuasivo. Esta capacidad de “notar dificultades letales sin que Eliezer Yudkowsky te discuta para que las notes” actualmente es una pieza opaca de maquinaria cognitiva para mí, no sé cómo entrenarla en otros. Probablemente se relacione con ‘mentalidad de seguridad‘, y un movimiento mental en el que te niegas a reproducir guiones, y ser capaz de operar en un campo que está en un estado de caos.

40. Los «genios» con logros agradables y legibles en campos con circuitos de retroalimentación ajustados donde es fácil determinar qué resultados son buenos o malos de inmediato, y así validar que esta persona es un genio, son (a) personas que podrían no ser capaces de hacer lo mismo un gran trabajo lejos de los estrechos circuitos de retroalimentación, (b) personas que eligieron un campo en el que su genio sería muy legible incluso si ese no era el lugar donde la humanidad más necesitaba un genio, y (c) probablemente no tienen la misteriosa engranajes simplemente porque son raro. No puede simplemente pagar $ 5 millones cada uno a un grupo de genios legibles de otros campos y esperar obtener un gran trabajo de alineación de ellos. Probablemente no sepan dónde están las verdaderas dificultades, probablemente no entiendan lo que hay que hacer, no saben diferenciar entre un buen y un mal trabajo, y los financiadores tampoco pueden saberlo sin que yo esté de pie sobre sus hombros evaluando todo, lo cual no tengo la resistencia física para hacer. Admito que los verdaderos talentos de alto nivel, especialmente si todavía tienen 20 años, están genuinamente interesados ​​y han leído, son personas que, sí, está bien, tienen mayores probabilidades de hacer contribuciones básicas que un tipo cualquiera de la calle. Pero tendría más esperanza, no una esperanza significativa, pero más esperanza: al separar las preocupaciones de (a) prometer de manera creíble pagar mucho dinero retrospectivamente por un buen trabajo a cualquiera que lo produzca, y (b) aventurar pagos prospectivos a alguien que se prevé que tal vez produzca un buen trabajo más adelante.

41. Leer este documento no puede convertir a alguien en un investigador de alineación central. Eso requiere, no la capacidad de leer este documento y asentir junto con él, sino la capacidad de escribirlo espontáneamente desde cero sin que nadie más lo solicite; eso es lo que hace a alguien un par de su autor. Está garantizado que parte de mi análisis está equivocado, aunque no necesariamente en una dirección esperanzadora. La habilidad de hacer un nuevo trabajo básico notando y arreglando esos defectos es la misma habilidad que la habilidad de escribir este documento antes de publicarlo, lo que aparentemente nadie hizo, a pesar de haber tenido otras cosas que hacer además de escribir esto durante los últimos cinco años. más o menos. Parte de ese silencio puede, posiblemente, con optimismo, deberse a que nadie más en este campo tiene la capacidad de escribir las cosas de manera comprensible, de modo que alguien por ahí tuviera el conocimiento para escribir todo esto por sí mismo, si tan solo pudiera haberlo escrito, pero no sabían escribir, así que no lo intentaron. No tengo muchas esperanzas de que esto resulte ser cierto en la vida real, pero supongo que es un lugar posible para una «violación del modelo positivo» (milagro). El hecho de que, veintiún años después de que ingresé a este juego de la muerte, siete años después de que otros EA notaron el juego de la muerte, y dos años después de que incluso las normas comenzaron a notar el juego de la muerte, todavía es Eliezer Yudkowsky quien escribe esta lista, dice que la humanidad todavía tiene una sola pieza de juego que puede hacer eso. Sabía que en realidad no tenía la resistencia física para ser un investigador estrella, traté muy, muy duro para reemplazarme antes de que mi salud se deteriorara aún más y, sin embargo, aquí estoy escribiendo esto. Así no es como se ven los mundos supervivientes.

42. No hay plan. Los mundos sobrevivientes, en este punto, y de hecho varias décadas antes, tienen un plan sobre cómo sobrevivir. Es un plan escrito. El plan no es secreto. En este mundo que no sobrevive, no hay planes candidatos que no caigan inmediatamente en manos de Eliezer, señalando instantáneamente los gigantescos agujeros visibles en ese plan. O si no sabes quién es Eliezer, ni siquiera te das cuenta de que necesitas un plan, porque, ¿cómo es posible que un ser humano se dé cuenta de eso sin que Eliezer le grite? No es como si la gente le gritara ellos mismos acerca de posibles dificultades de alineación, no tienen un interno voz de cautela. Entonces, la mayoría de las organizaciones no tienen planes, porque no me he tomado el tiempo para gritarles personalmente. ‘Tal vez deberíamos tener un plan’ es una mentalidad de alineación más profunda que la que poseen sin que yo esté de pie constantemente sobre su hombro como su ángel personal suplicándoles que… sigan sin cumplir, de hecho. Relativamente pocos son conscientes incluso de que deberían, para verse mejor, producir un fingir plan que también puede engañar a los EA’modesto‘ para confiar en sus propios juicios sobre los agujeros aparentemente abiertos en lo que aparentemente cree la gente que parece seria.

43. Esta situación que ves cuando miras a tu alrededor no es lo que parece un mundo sobreviviente. Los mundos de la humanidad que sobreviven tienen planes. No le están dejando a un tipo cansado con problemas de salud toda la responsabilidad de señalar problemas reales y letales de manera proactiva. Las personas clave están asumiendo la responsabilidad interna y real de encontrar fallas en sus propios planes, en lugar de considerar que es su trabajo proponer soluciones y el trabajo de otra persona demostrar que esas soluciones son incorrectas. Ese mundo comenzó a tratar de resolver sus importantes problemas letales antes que esto. La mitad de las personas que se dedicaron a la teoría de cuerdas cambiaron a la alineación de la IA y lograron un progreso real allí. Cuando la gente sugiere un problema planetariamente letal que podría materializarse más tarde, hay muchas personas que sugieren eso, en los mundos destinados a vivir, y no tienen un estatus especial en el campo, es solo lo que hacen los genios normales allí: ellos se encuentran con planes de solución o una razón por la que eso no debería suceder, no un encogimiento de hombros incómodo y ‘¿Cómo puede estar seguro de que eso sucederá?’ / ‘No hay forma de que pueda estar seguro de eso ahora, tendremos que esperar a la evidencia experimental.

Muchos de esos mundos mejores morirán de todos modos. Es un problema genuinamente difícil, resolver algo así en tu primer intento. Pero morirán con más dignidad que esto.



Fuente del artículo

Deja un comentario