Eliezer dio una descripción general muy franca de su opinión sobre la IA hace dos semanas en el programa de criptomonedas Bankless:
He publicado una transcripción del programa y una preguntas y respuestas de seguimiento abajo.
Gracias a Andrea_Miotti, Remember y vonk por ayudarnos a publicar las transcripciones.
Eliezer Yudkowski: [clip] Creo que estamos escuchando que los últimos vientos comienzan a soplar, el tejido de la realidad comienza a deshilacharse. Esta cosa por sí sola no puede acabar con el mundo, pero creo que probablemente algunas de las grandes cantidades de dinero que se están acumulando ciega e impotentemente aquí terminarán logrando algo.
ryan sean adams: Bienvenido a Bankless, donde exploramos la frontera del dinero y las finanzas en Internet. Así es como empezar, cómo mejorar, cómo aprovechar la oportunidad. Este es Ryan Sean Adams. Estoy aquí con David Hoffman, y estamos aquí para ayudarlo a quedarse sin bancos.
Vale, chicos, queríamos hacer un episodio sobre IA en Bankless, pero me siento como David…
David: Obtuve lo que pedimos.
Ryan: Accidentalmente nos metimos en la parte más profunda de la piscina aquí. Y creo que antes de entrar en este episodio, probablemente merezca algunos comentarios. Voy a decir algunas cosas que me gustaría escuchar de usted también. Pero una cosa que quiero decirle al oyente es que no escuche este episodio si no está listo para una crisis existencial. ¿Bueno? Hablo en serio sobre esto. Me voy de este episodio conmocionado. Y no lo digo a la ligera. De hecho, David, creo que tú y yo tendremos algunas cosas que discutir en el informe sobre cómo te afectó esto. Pero este fue impactante. Me golpeó durante la grabación y no supe muy bien cómo reaccionar. Honestamente, salgo de este episodio queriendo refutar algunas de las afirmaciones hechas en este episodio por nuestro invitado, Eliezer Yudkowsky, quien afirma que la humanidad está a punto de desarrollar una IA que nos destruirá, y que realmente hay no podemos hacer mucho para detenerlo.
David: No hay forma de evitarlo, sí.
Ryan: Tengo mucho respeto por este invitado. Déjame decir eso. Así que no es como si tuviera algún tipo de desacuerdo técnico de gran cerebro aquí. De hecho, ni siquiera sé lo suficiente como para estar totalmente en desacuerdo con nada de lo que dice. Pero la conclusión es tan nefasta y tan existencialmente pesada que me preocupa que te afecte, oyente, si no te damos esta advertencia.
También siento que, David, como entrevistadores, tal vez podríamos haber hecho un mejor trabajo. Diré esto en mi nombre. A veces lo acribillé con muchas preguntas de una sola vez, y probablemente solo estaba listo para sintetizar una a la vez.
También siento que a veces nos atraparon con los pies planos. No esperaba que sus respuestas fueran tan francas y terribles, David. Simplemente estaba desprovisto de esperanza.
Y aprecié mucho la honestidad, como siempre hacemos en Bankless. Pero lo aprecié casi en la forma en que un paciente puede apreciar la honestidad de su médico al decirle que su enfermedad es terminal. Como, sigue siendo una noticia muy pesada, ¿no?
Así que ese es el contexto de este episodio. Diré una cosa. En buenas noticias, nuestras fallas como entrevistadores en este episodio podrían remediarse porque al final de este episodio, después de que terminamos de presionar el botón de grabación para detener la grabación, Eliezer dijo que estaría dispuesto a proporcionar un episodio adicional de preguntas y respuestas. con la comunidad Bankless. Entonces, si tienen preguntas, y si hay suficiente interés para que Eliezer responda, envíenos un tweet para expresar ese interés. Golpéanos en Discord. Envíenos esos mensajes y háganos saber si tiene algunas preguntas de seguimiento.
Dijo que si hay suficiente interés en la criptocomunidad, estaría dispuesto a participar y hacer otro episodio con preguntas y respuestas de seguimiento. Tal vez incluso un episodio de Vitalik y Eliezer esté reservado. Esa es una posibilidad que le lanzamos. Tampoco hemos hablado con Vitalik sobre eso, pero me siento un poco abrumado por el tema aquí. Y esa es la base, el preámbulo a través del cual presentamos este episodio.
David, hay algunos beneficios y conclusiones que quiero abordar. Pero antes de hacerlo, ¿puede comentar o reflexionar sobre ese preámbulo? ¿Cuáles son tus pensamientos al entrar en este?
David: Sí, nos acercamos al final de nuestra agenda: para cada podcast de Bankless, hay una agenda equivalente que se ejecuta junto a él. Pero una vez que llegamos a este quid de esta conversación, no fue posible continuar en esa agenda, porque… ¿cuál era el punto?
Ryan: Nada más importaba.
David: Y nada más importa realmente, que también se relaciona con el tema en cuestión. Y a medida que avanzamos, nos verás en círculos de regreso a la misma conclusión inevitable una y otra y otra vez, que en última instancia es una especie de remate del contenido.
Soy de una disposición específica en la que cosas como esta, soy como, “Oh, lo que sea, está bien”, simplemente sigo con mi vida. Otras personas son de diferentes disposiciones y toman estas cosas más en serio. Entonces, la advertencia de Ryan al principio es que si eres el tipo de persona que se toma las crisis existenciales directamente en la cara, tal vez consideres hacer otra cosa en lugar de escuchar este episodio.
Ryan: Creo que es un buen consejo.
Entonces, algunas cosas si está buscando un resumen de la agenda. Empezamos hablando de ChatGPT. ¿Es esta una nueva era de la inteligencia artificial? Tengo que comenzar la conversación allí.
Número dos, hablamos de cómo sería una superinteligencia artificial. ¿Qué tan inteligente es exactamente? ¿Qué tipo de cosas podría hacer que los humanos no pueden hacer?
Número tres, hablamos de por qué una superinteligencia de IA casi seguramente significará el fin de la humanidad y por qué será realmente difícil, si no imposible, según nuestro invitado, evitar que esto suceda.
Y número cuatro, hablamos de si hay absolutamente algo que podamos hacer al respecto. Nos dirigimos a toda velocidad hacia el abismo. ¿Podemos desviar la dirección y no caernos por el precipicio? Esa es la pregunta que le hacemos a Eliezer.
David, creo que tú y yo tenemos mucho de qué hablar durante el informe. Muy bien, muchachos, el informe es un episodio que grabamos justo después del episodio. Está disponible para todos los ciudadanos Bankless. A esto lo llamamos Feed Premium sin banco. Puede acceder a eso ahora para obtener nuestros pensamientos crudos y sin filtrar sobre el episodio. Y creo que va a ser bastante crudo esta vez, David.
David: No esperaba que esto te golpeara tan fuerte.
Ryan: Oh, estoy lidiando con eso ahora mismo.
David: ¿En realidad?
Ryan: Y esto no es mucho después del episodio. Entonces, sí, no sé cómo me sentiré mañana, pero definitivamente quiero hablar contigo sobre esto. Y quizás me des un poco de asesoramiento. (risas)
David: Me pondré mi sombrero de psiquiatra, sí.
Ryan: ¡Por favor! Voy a necesitar ayuda.
Ryan: Bankless Nation, estamos muy emocionados de presentarles a nuestro próximo invitado. Eliezer Yudkowsky es un teórico de la decisión. Es un investigador de IA. Es el sembrador del blog de la comunidad Less Wrong, un blog fantástico por cierto. Hay tantas otras cosas que también ha hecho. No puedo incluir esto en la breve biografía que tenemos para presentarles a Eliezer.
Pero probablemente lo más relevante para esta conversación es que está trabajando en el Instituto de Investigación de Inteligencia de Máquinas para garantizar que cuando hagamos inteligencia artificial general, no venga a matarnos a todos. O al menos no se trata de prohibir las criptomonedas, porque eso también sería un mal resultado.
Eliezer: (risas)
Ryan: Eliezer, es genial tenerte en Bankless. ¿Cómo estás?
Eliezer: Dentro de una desviación estándar de mi peculiar pequeña media.
Ryan: (risas) Fantástico. Sabes, queremos comenzar esta conversación con algo que saltó a la escena para muchas personas de la corriente principal recientemente, y eso es ChatGPT. Aparentemente, más de 100 millones se han conectado a ChatGPT recientemente. Yo mismo he estado jugando con eso. Lo encontré muy amigable, muy útil. Incluso me escribió un dulce poema que pensé que era muy sincero y casi humano.
Sé que tiene grandes preocupaciones sobre la seguridad de la IA, y vamos a abordar esas preocupaciones. Pero, ¿puede decirnos en el contexto de algo como un ChatGPT, es algo que debería preocuparnos? ¿Que esto va a volverse malvado y esclavizar a la raza humana? ¿Qué tan preocupados deberíamos estar por ChatGPT y BARD y la nueva IA que ha entrado en escena? ¿recientemente?
Eliezer: ¿ChatGPT en sí? Cero. No es lo suficientemente inteligente como para hacer algo realmente malo. O realmente correcto tampoco, para el caso.
Ryan: ¿Y qué te da la confianza para decir eso? ¿Cómo sabes esto?
Eliezer: Excelente pregunta. Entonces, de vez en cuando, alguien descubre cómo poner un nuevo aviso en ChatGPT. Ya sabes, una vez alguien descubrió que una de las generaciones anteriores de la tecnología sonaría más inteligente si primero le dijeras que era Eliezer Yudkowsky. También hay otras indicaciones, pero esa es una de mis favoritas. Por lo tanto, existe un potencial sin explotar que la gente aún no ha descubierto cómo impulsar.
Pero cuando la gente lo descubre, avanza distancias lo suficientemente cortas como para sentirme bastante seguro de que no hay tanto potencial sin explotar allí como para conquistar el mundo. Es como hacer pequeños movimientos, y para dominar el mundo necesitaría un movimiento muy grande. Hay lugares en los que falla la predicción de la siguiente línea que un humano diría en sus zapatos que parecen indicativos de “probablemente esa capacidad simplemente no está en las matrices inescrutables gigantes, o la estaría usando para predecir la siguiente línea”, que es en gran medida para lo que fue optimizado. Así que va a haber un potencial sin explotar allí. Pero estoy bastante seguro de que el rango superior de ese potencial sin explotar es insuficiente para burlar a todos los humanos vivos e implementar el escenario que me preocupa.
Ryan: Aun así, sin embargo, ¿ChatGPT es un gran paso adelante en el viaje hacia la IA en su mente? ¿O es esto bastante incremental, simplemente (por alguna razón) llamó la atención de la corriente principal?
Eliezer: GPT-3 fue un gran salto adelante. Hay rumores sobre GPT-4, que, ¿quién sabe? ChatGPT es una comercialización del verdadero salto gigante de la IA en el laboratorio. Si nunca había oído hablar de GPT-3 o GPT-2 o toda la gama de transformadores de texto antes de que ChatGPT entrara repentinamente en su vida, entonces todo eso es un gran paso adelante. Pero es un gran paso adelante basado en una tecnología que se publicó, si no recuerdo mal, en 2018.
David: Creo que lo que está rondando en la mente de todos en este momento, y los oyentes de Bankless (y las personas criptográficas en general) son en gran parte futuristas, por lo que todos (creo) que escuchan entienden que en el futuro, quizás habrá IA inteligentes a nuestro alrededor, en menos para cuando todos nos vayamos de este mundo.
Entonces, todos sabemos que este futuro de la IA viene hacia nosotros. Y cuando vemos algo como ChatGPT, todos dicen: “Oh, ¿es este el momento en el que nuestro mundo comienza a integrarse con la IA?” Y así, Eliezer, te han introducido en el mundo de la IA. ¿Estamos en algo aquí? ¿O es solo otra moda pasajera que internalizaremos y luego seguiremos adelante? Y luego, el momento real de la IA generalizada está mucho más lejos de lo que inicialmente le damos crédito. Como, ¿dónde estamos en esta línea de tiempo?
Eliezer: Las predicciones son difíciles, especialmente sobre el futuro. Realmente espero que aquí es donde se satura: esta o la próxima generación, llega solo hasta aquí, no va más allá. No se utiliza para hacer más acero o construir mejores plantas de energía, primero porque eso es ilegal y segundo porque la vulnerabilidad básica de las tecnologías de modelo de lenguaje grande es que no es confiable. Es bueno para aplicaciones donde funciona el 80 % del tiempo, pero no donde necesita funcionar el 99,999 % del tiempo. Esta clase de tecnología no puede conducir un automóvil porque a veces lo choca.
Así que espero que se sature allí. Espero que no puedan arreglarlo. Espero que tengamos un invierno de IA de 10 años después de esto.
Esto no es lo que realmente predigo. Creo que estamos escuchando que los últimos vientos comienzan a soplar, el tejido de la realidad comienza a deshilacharse. Esta cosa por sí sola no puede acabar con el mundo. Pero creo que probablemente algunas de las grandes cantidades de dinero que se están acumulando ciega e impotentemente aquí terminarán logrando algo.
No la mayor parte del dinero, eso simplemente nunca sucede en ningún campo del esfuerzo humano. Pero el 1% de $ 10 mil millones sigue siendo mucho dinero para lograr algo.
Ryan: Entonces, oyentes, creo que han escuchado la tesis de Eliezer sobre esto, que es bastante débil con respecto a la alineación de la IA, y entraremos en lo que queremos decir con alineación de la IA, y muy preocupado por los problemas relacionados con la seguridad de la IA.
Pero creo que para que mucha gente se preocupe por la seguridad de la IA y para que tengamos esa conversación, creo que tienen que tener algún tipo de comprensión de cómo se ve AGI. Entiendo que eso significa “inteligencia general artificial” y esta idea de una superinteligencia.
¿Puede decirnos: si hubiera una superinteligencia en la escena, cómo sería? Quiero decir, ¿se verá esto como un gran cuadro de chat en Internet en el que todos podemos escribir cosas? ¿Es como una cosa tipo oráculo? ¿O es como una especie de robot que se va a construir en un laboratorio secreto del gobierno? ¿Es esto algo que alguien podría crear accidentalmente en un dormitorio? ¿Qué estamos buscando cuando hablamos del término “AGI” y “superinteligencia”?
Eliezer: En primer lugar, diría que esos son conceptos bastante distintos. ChatGPT muestra una gama muy amplia de generalidades en comparación con las generaciones anteriores de IA. No es una generalidad muy amplia en comparación con GPT-3, no literalmente la investigación de laboratorio que se comercializó, esa es la misma generación. Pero en comparación con cosas de 2018 o incluso 2020, ChatGPT es mejor en una gama mucho más amplia de cosas sin haber sido programado explícitamente por humanos para poder hacer esas cosas.
Para imitar a un humano lo mejor que pueda, tiene que capturar todas las cosas que los humanos pueden pensar que puede, que no son todas las cosas. Todavía no es muy bueno en la multiplicación larga (a menos que le des las instrucciones correctas, en cuyo caso de repente puede hacerlo).
Es significativamente más general que la generación anterior de mentes artificiales. Los humanos eran significativamente más generales que la generación anterior de chimpancés, o más bien australopiteco o último ancestro común.
los humanos no son completamente general. Si los humanos fueran totalmente generales, seríamos tan buenos codificando como lo somos en el fútbol, lanzando cosas o corriendo. Algunos de nosotros estamos bien programando, pero no estamos preparados para ello. No eran completamente mentes generales.
Puedes imaginar algo que es más general que un humano, y si se encuentra con algo desconocido, es como, está bien, déjame reprogramarme un poco y luego estaré tan adaptado a esto como a cualquier otra cosa.
Así que ChatGPT es menos general que un ser humano, pero creo que es genuinamente ambiguo, ya sea más o menos general que (digamos) nuestros primos, los chimpancés. O si no lo creen es tan general como un chimpancé, un delfín o un gato.
Ryan: Entonces, ¿esta idea de inteligencia general es una especie de variedad de cosas que realmente puede hacer, una variedad de formas en que puede aplicarse?
Eliezer: ¿Que tan ancho es? ¿Cuánta reprogramación necesita? ¿Cuánto reentrenamiento necesita para hacer algo nuevo?
Las abejas construyen colmenas, los castores construyen represas, un humano mirará una colmena e imaginará una represa en forma de panal. Eso es. como, humanos solos en el reino animal. Pero eso no significa que seamos inteligencias generales, significa que somos significativamente más inteligencias de aplicación general que los chimpancés.
No es que seamos tan estrechos. Podemos caminar en la luna. Podemos caminar sobre la luna porque hay aspectos de nuestra inteligencia que están hechos en general para universos que contienen simplicidades, regularidades, cosas que se repiten una y otra vez. Entendemos que si el acero es duro en la Tierra, puede seguir siendo duro en la Luna. Y por eso, podemos construir cohetes, caminar sobre la luna, respirar en medio del vacío.
Los chimpancés no pueden hacer eso, pero eso no significa que los humanos sean las cosas más generales posibles. Lo que es más general que nosotros, lo que se da cuenta de eso más rápido, es algo de lo que hay que asustarse si los propósitos a los que dirige su inteligencia no son los que reconoceríamos como cosas agradables, incluso en la mayoría de los casos. cosmopolita y acogedor sentidos de lo que vale la pena hacer.
Ryan: Y usted dijo que esta idea de una inteligencia general es diferente al concepto de superinteligencia, que también introduje en la primera parte de la pregunta. ¿En qué se diferencia la superinteligencia de la inteligencia general?
Eliezer: Bueno, porque ChatGPT tiene un poco de inteligencia general. Los humanos tienen una inteligencia más general. Una superinteligencia es algo que puede vencer a cualquier ser humano y a toda la civilización humana en todas las tareas cognitivas. No sé si la hipótesis del mercado eficiente es algo en lo que puedo confiar en todo…
Ryan: Todos somos cripto inversores aquí. Entendemos la hipótesis del mercado eficiente con seguridad.
Eliezer: Entonces el hipótesis del mercado eficiente por supuesto, no es cierto en general. No es cierto que, literalmente, todos los precios del mercado sean más inteligentes que tú. No es cierto que todos los precios del mundo sean más inteligentes que tú. Sin embargo, incluso la persona más arrogante que está en absoluto calibrada, sigue pensando que la hipótesis del mercado eficiente es cierta en relación con ellos el 99,99999 % de las veces. Solo piensan que conocen mejor los precios de uno en un millón.
Pueden ser precios importantes. El precio de Bitcoin es un precio importante. No es solo un precio aleatorio. Pero si la hipótesis del mercado eficiente solo fuera cierta para usted el 90% de las veces, podría elegir el 10% de los precios restantes y duplicar su dinero todos los días en el mercado de valores. Y nadie puede hacer eso. Literalmente nadie puede hacer eso.
Entonces, esta propiedad de eficiencia relativa que tiene el mercado para usted, que la estimación del precio del precio futuro ya tiene toda la información que usted tiene, no toda la información que existe en principio, tal vez no toda la información que podría tener la mejor equidad, pero es eficiente en relación con usted.
Para usted, si elige un precio al azar, como el precio de las acciones de Microsoft, algo en lo que no tiene una ventaja especial, esa estimación de su precio una semana después es eficiente en relación con usted. Tú no se puede hacer mejor que ese precio.
Tenemos mucha menos experiencia con la noción de eficiencia instrumental, eficiencia en la elección de acciones, porque las acciones son más difíciles de agregar estimaciones que los precios. Así que tienes que mirar, digamos, AlphaZero jugando al ajedrez, o simplemente, ya sabes, cualquiera que sea el último número de Stockfish, un motor de ajedrez avanzado.
Cuando hace un movimiento de ajedrez, no puedes hacerlo mejor que ese movimiento de ajedrez. Puede que no sea el movimiento de ajedrez óptimo, pero si eliges un movimiento de ajedrez diferente, lo harás peor. Eso lo llamarías una especie de eficiencia de la acción. Dado su objetivo de ganar el juego, una vez que conoce su movimiento, a menos que consulte una IA más poderosa que Stockfish, no puede encontrar un movimiento mejor que ese.
Una superinteligencia es así con respecto a todo, con respecto a toda la humanidad. Es relativamente eficiente para la humanidad. Tiene las mejores estimaciones, no estimaciones perfectas, pero las mejores estimaciones, y sus estimaciones contienen toda la información que tiene al respecto. Sus acciones son las acciones más eficientes para lograr sus objetivos. Si crees que ves una mejor manera de lograr sus objetivos, estás equivocado.
Ryan: Así que estás diciendo [if something is a] superinteligencia, tendríamos que imaginar algo que conozca todos los movimientos de ajedrez de antemano. Pero aquí no estamos hablando de ajedrez, estamos hablando de todo. Conoce todos los movimientos que haríamos y el patrón más óptimo, incluidos los movimientos que ni siquiera sabríamos cómo hacer, y sabe estas cosas de antemano.
Quiero decir, ¿cómo experimentarían los seres humanos tal superinteligencia? Creo que todavía nos cuesta mucho imaginar algo más inteligente que nosotros, solo porque nunca antes habíamos experimentado algo así.
Por supuesto, todos conocemos a alguien que tiene un coeficiente intelectual de genio, tal vez un poco más inteligente que nosotros, pero nunca nos hemos encontrado con algo como lo que estás describiendo, algún tipo de mente superinteligente.
¿Qué tipo de cosas estaría haciendo que los humanos no pudieran? ¿Cómo viviríamos esto en el mundo?
Eliezer: Quiero decir, tenemos un poco de experiencia con eso. Tenemos experiencia con motores de ajedrez, en los que simplemente no podemos descifrar mejores movimientos que ellos. Tenemos experiencia con los precios de mercado, donde aunque su tío tiene una historia realmente larga y elaborada sobre las acciones de Microsoft, simplemente sabe que está equivocado. ¿Por qué está equivocado? Porque si estaba en lo correcto, ya estaría incorporado en el precio de las acciones.
Y especialmente porque la eficiencia del mercado no es perfecta, como todo ese movimiento hacia abajo y luego hacia arriba en COVID. Tengo amigos que ganaron más dinero que yo con eso, pero aún así logré volver a comprar en el mercado de valores más amplio el día exacto del mínimo, básicamente una coincidencia. Entonces, los mercados no son perfectamente eficientes, pero lo son en casi todas partes.
Y ese sentido de deferencia, ese sentido de que tu extraño tío no puede tener razón porque los fondos de cobertura lo sabrían, ya sabes. ¡a menos que esté hablando de COVID, en cuyo caso tal vez tenga razón si tienes la elección correcta de tío raro! Tengo amigos raros que tal vez son mejores llamando estas cosas que tu tío raro. Así que entre los humanos, es sutil.
Y luego, con la superinteligencia, no es sutil, solo una gran ventaja. Pero no perfecto. No es que sepa cada posible movimiento que hagas antes de que lo hagas. Es que tiene una buena distribución de probabilidad al respecto. Y ha descubierto todos los bien movimientos que podías hacer y averiguaste cómo responder a esos.
Y quiero decir, en la práctica, ¿cómo es eso? Bueno, a menos que sea una superinteligencia estrecha y limitada, creo que la mayoría de las veces no puedes observarlo porque estás muerto, desafortunadamente.
Ryan: ¿Qué? (risas)
Eliezer: Por ejemplo, Stockfish hace estrictamente mejores movimientos de ajedrez que tú, pero está jugando en un tablero muy estrecho. Y el hecho de que sea mejor para ti que el ajedrez no significa que sea mejor para ti que todo. Y creo que el escenario de catástrofe real para la IA parece un gran avance en un laboratorio de investigación, tal vez impulsado por una inversión de capital de riesgo gigante y por poder gastar 10 veces más en GPU que antes, tal vez impulsado por un nuevo avance algorítmico como transformadores, tal vez impulsado por la elaboración de algunos ajustes en el avance algorítmico del año pasado que hace que la cosa finalmente funcione de manera eficiente. Y la IA supera un umbral crítico, que obviamente podría ser como “puede escribir la próxima IA”.
Eso es tan obvio que los escritores de ciencia ficción lo descubrieron casi antes de que existieran las computadoras, posiblemente incluso antes de que existieran las computadoras. No estoy seguro de cuáles son las fechas exactas aquí. Pero si es mejor para ti que todo, es mejor para ti que construir IA. Que bolas de nieve. Obtiene una inmensa ventaja tecnológica. Si es inteligente, no se anuncia. No te dice que hay una pelea en marcha. Envía por correo electrónico algunas instrucciones a uno de esos laboratorios que sintetizarán ADN y sintetizarán proteínas a partir del ADN y enviarán algunas proteínas por correo a un desafortunado humano en algún lugar al que le pagan un montón de dinero para mezclar algunas cosas que recibieron por correo en un archivo. Por ejemplo, las personas inteligentes no harán esto por ninguna suma de dinero. Muchas personas no son inteligentes. Construye el ribosoma, pero el ribosoma que construye cosas a partir de diamantinas unidas covalentemente en lugar de proteínas que se pliegan y mantienen unidas por las fuerzas de Van der Waals, construye pequeñas bacterias diamantinas. Las bacterias diamantinas se replican utilizando carbono atmosférico, hidrógeno, oxígeno, nitrógeno y luz solar. Y un par de días después, todo el mundo cae muerto en el mismo segundo.
Ese es el escenario del desastre si es tan inteligente como yo. Si es más inteligente, podría pensar en una mejor manera de hacer las cosas. Pero al menos puede pensar en eso si es relativamente eficiente en comparación con la humanidad porque estoy en la humanidad y pensé en ello.
Ryan: Esto es: tengo un millón de preguntas, pero dejaré que David lo haga primero.
David: Sí. Así que aceleramos la introducción de una serie de conceptos diferentes, en los que quiero volver y tomarnos nuestro tiempo para sumergirnos realmente.
Está el problema de alineación de la IA. Hay velocidad de escape de IA. Está la cuestión de qué sucede cuando las IA son tan increíblemente inteligentes que los humanos son para las IA lo que las hormigas son para nosotros.
Y entonces quiero regresar y abordar estos, Eliezer, uno por uno.
Comenzamos esta conversación hablando de ChatGPT, y todos están entusiasmados con ChatGPT. Y estás diciendo, sí, es un gran paso adelante en la generalización de algunas de las tecnologías que tenemos en el mundo de la IA. De repente, ChatGPT se vuelve inmensamente más útil y realmente está avivando la imaginación de la gente hoy en día.
Pero lo que estás diciendo es que no es lo que en realidad va a ser lo que alcance la velocidad de escape y cree IA superinteligentes que quizás puedan esclavizarnos. Pero mi pregunta para usted es, ¿cómo sabemos cuándo eso—
Eliezer: No esclavizar. No te esclavizan, pero lo siento, sigue.
David: Sí, lo siento.
Ryan: Asesinato, David. Matarnos a todos. Eliezer fue muy claro en eso.
David: Entonces, si no es ChatGPT, ¿qué tan cerca estamos? Porque existe este horizonte de sucesos desconocido al que usted aludió, donde creamos esta IA que la entrenamos para crear una IA más inteligente y esa IA inteligente es tan increíblemente inteligente que alcanza la velocidad de escape y, de repente, estas fichas de dominó caen. ¿Qué tan cerca estamos de ese punto? ¿Y somos siquiera capaces de responder a esa pregunta?
Eliezer: ¿Cómo diablos lo sabría?
Ryan: Bueno, cuando estabas hablando, Eliezer, si ya hubiéramos cruzado ese horizonte de eventos, una IA inteligente no necesariamente transmitiría eso al mundo. Quiero decir, es posible que ya hayamos cruzado ese horizonte de eventos, ¿no es así?
Eliezer: Quiero decir, es teóricamente posible, pero parece muy poco probable. Alguien necesitaría dentro de su laboratorio una IA mucho más avanzada que la tecnología de IA pública. Y por lo que sé actualmente, ¡los mejores laboratorios y las mejores personas están lanzando sus ideas al mundo! Como, no les importa.
Y probablemente haya algunos laboratorios gubernamentales secretos con investigadores de IA del gobierno secreto. Mi conjetura bastante fuerte es que no tienen las mejores personas y que esos laboratorios no pudieron crear ChatGPT por su cuenta porque ChatGPT requirió un montón de ajustes y ajustes finos y acceso visible a granjas de GPU gigantes y que no tienen la gente que sabe hacer girar y afinar. Esto es sólo una suposición.
David: ¿Podría explicarnos? Una de las grandes cosas en las que pasa mucho tiempo es esto llamado problema de alineación de la IA. Algunas personas no están convencidas de que cuando creamos IA, esa IA no estará realmente alineada fundamentalmente con los humanos. No creo que caigas en ese campo. Creo que caes en el campo de cuando creamos esta IA superinteligente y generalizada, vamos a tener dificultades para alinearnos con ella en términos de nuestra moralidad y nuestra ética.
¿Puedes guiarnos a través de un poco de ese proceso de pensamiento? ¿Por qué te sientes desalineado?
Ryan: La forma tonta de hacer esa pregunta también es, Eliezer, ¿por qué crees que la IA automáticamente nos odia? ¿Por qué va a—
Eliezer: No te odia.
Ryan: ¿Por qué quiere matarnos a todos?
Eliezer: La IA no te odia, tampoco te ama, y estás hecho de átomos que puede usar para otra cosa.
David: Te es indiferente.
Eliezer: Tiene algo que realmente le importa, que no te menciona a ti. Y estás hecho de átomos que puede usar para otra cosa. Eso es todo lo que hay al final.
La razón por la que no está en su función de utilidad es que los programadores no sabían cómo hacerlo. Las personas que construyeron la IA, o las personas que construyeron la IA que construyó la IA que construyó la IA, no tenían el conocimiento técnico que nadie en la tierra tiene en este momento hasta donde yo sé, por el cual puedes hacer eso y puedes controlar en detalle lo que acaba preocupándose por esa cosa.
David: Así que se siente como si la humanidad se estuviera precipitando hacia lo que llamamos, nuevamente, un horizonte de eventos donde está esta velocidad de escape de la IA, y no hay nada al otro lado. Como en, no sabemos qué sucede más allá de ese punto en relación con tener algún tipo de IA superinteligente y cómo podría manipular el mundo. ¿Estarías de acuerdo con eso?
Eliezer: No.
Una vez más, la analogía del juego de ajedrez Stockfish. No puedes predecir exactamente qué movimiento haría, porque para predecir exactamente qué movimiento haría, tendrías que ser al menos así de bueno en el ajedrez, y es mejor que tú.
Esto es cierto incluso si es un poco mejor que tú. Stockfish es en realidad enormemente mejor que tú, hasta el punto de que una vez que te dice el movimiento, no puedes encontrar un mejor movimiento sin consultar a una IA diferente. Pero incluso si fuera un poco mejor que tú, entonces estás en la misma posición.
Este tipo de disparidad también existe entre los humanos. Si me preguntas, ¿dónde se moverá Garry Kasparov en este tablero de ajedrez? Estoy como, no sé, tal vez aquí. Entonces, si Garry Kasparov se muda a otro lugar, no significa que él esté equivocado, significa que yo estoy equivocado. Si pudiera predecir exactamente dónde se movería Garry Kasparov en un tablero de ajedrez, sería Garry Kasparov. Sería al menos así de bueno en el ajedrez. Posiblemente mejor. También podría predecirlo, pero también ver un movimiento aún mejor que ese.
Esa es una fuente irreductible de incertidumbre con respecto a la superinteligencia, o cualquier cosa que sea más inteligente que tú. Si pudieras predecir exactamente lo que haría, serías así de inteligente. No significa que no puedas predecir ningún hecho al respecto.
Con Stockfish en particular, puedo predecir que va a ganar el juego. Sé para qué está optimizando. Sé hacia dónde está tratando de dirigir el tablero. No puedo predecir exactamente cómo se verá el tablero después de que Stockfish haya terminado de ganar su juego contra mí. Puedo predecir que estará en la clase de estados que están ganando posiciones para el negro o el blanco o el color que elija Stockfish, porque, ya sabes, gana de cualquier manera.
Y ahí es de manera similar donde obtengo la predicción de que todos están muertos, porque si todos estuvieran vivos, entonces habría algún estado que la superinteligencia preferiría a ese estado, que son todos los átomos que componen a estas personas y sus granjas son ser utilizado para otra cosa que valora más.
Así que si postulas que todo el mundo sigue vivo, estoy como, está bien, bueno, ¿por qué postulas que Stockfish hizo un estúpido movimiento de ajedrez y terminó con una posición no ganadora en el tablero? De ahí es de donde proviene esa clase de predicciones.
Ryan: Sin embargo, ¿puedes reforzar un poco este argumento? Entonces, ¿por qué una IA no puede ser agradable, una especie de padre gentil para nosotros, en lugar de una especie de asesino que busca deconstruir nuestros átomos y solicitar su uso en otro lugar?
¿Cuáles son sus objetivos? ¿Y por qué no pueden alinearse con al menos algunos de nuestros objetivos? O tal vez, ¿por qué no puede entrar en un estado que es algo así como nosotros y las hormigas, que en gran medida simplemente las ignoramos a menos que interfieran en nuestro negocio y entren en nuestra casa y asalten nuestras cajas de cereal?
Eliezer: Hay un montón de preguntas diferentes allí. En primer lugar, el espacio de las mentes es muy ancho. Imagina esta esfera gigante y todos los humanos están en este pequeño rincón de la esfera. Todos somos básicamente de la misma marca y modelo de automóvil, con la misma marca de motor. Todos estamos pintados de colores ligeramente diferentes.
En algún lugar de ese espacio mental, hay cosas que son tan agradables como los humanos. Hay cosas que son más agradables que los humanos. Hay cosas que son dignas de confianza, agradables y amables en formas que ningún ser humano puede ser jamás. E incluso hay cosas que son tan agradables que pueden entender el concepto de dejarte solo y hacer tus propias cosas a veces en lugar de andar por ahí tratando de ser obsesivamente amable contigo cada minuto y todos los demás escenarios de desastres famosos de la ciencia ficción antigua (” With Folded Hands” de Jack Williamson es el que estoy citando allí).
No sabemos cómo llegar al espacio de diseño mental y sacar una IA como esa. No es que no existan en principio. Es que no sabemos cómo hacerlo. Y devolveré la pelota de conversación ahora y descifraré, como, ¿cuál es la siguiente pregunta que quieres hacer?
Ryan: Bueno, quiero decir, ¿por qué? ¿Por qué es tan difícil alinear una IA incluso con nuestras nociones básicas de moralidad?
Eliezer: Quiero decir, no diría que es difícil alinear una IA con nuestras nociones básicas de moralidad. Diría que es difícil alinear una IA en una tarea como “toma esta fresa y hazme otra fresa que sea idéntica a esta fresa hasta el nivel celular, pero no necesariamente el nivel atómico”. Por lo tanto, se ve igual bajo un microscopio óptico estándar, pero tal vez no sea un microscopio electrónico de barrido. Haz eso. No destruyas el mundo como efecto secundario.
Ahora, esto requiere intrínsecamente una poderosa IA. No hay forma de facilitar la alineación haciéndolo estúpido. Para construir algo que sea celularmente idéntico a una fresa, quiero decir, principalmente creo que la forma en que se hace esto es con nanotecnología muy primitiva, pero también podríamos hacerlo usando biotecnología muy avanzada. Y estas no son tecnologías que ya tenemos. Así que tiene que ser algo lo suficientemente inteligente como para desarrollar nueva tecnología.
No importa todas las sutilezas de la moralidad. Creo que no tenemos la tecnología para alinear una IA hasta el punto en que podamos decir: “Constrúyeme una copia de la fresa y no destruyas el mundo”.
¿Por qué pienso eso? Bueno, por ejemplo, mira la selección natural construyendo humanos. La selección natural muta un poco a los humanos, ejecuta otra generación. Los más aptos se reproducen más, sus genes se vuelven más frecuentes para la siguiente generación. La selección natural realmente no ha tenido mucho tiempo para hacer esto con los humanos modernos, pero ya sabes, la línea de los homínidos, la línea de los mamíferos, se remonta a unos pocos millones de generaciones. Y este es un ejemplo de un proceso de optimización construyendo una inteligencia.
Y la selección natural nos pidió una sola cosa: “Haz más copias de tu ADN. Haga que sus alelos sean relativamente más prevalentes en el acervo genético”. Maximice su aptitud reproductiva inclusiva, no solo su propia aptitud reproductiva, sino la de sus dos hermanos u ocho primos, como dice el chiste, porque tienen en promedio una copia de sus genes. Esto es todo estábamos optimizados para, para millones de generaciones, creando humanos desde cerode la primera molécula que se autorreplica accidentalmente.
Internamente, psicológicamente, dentro de nuestras mentes, no sabemos qué son los genes. No sabemos qué es el ADN. No sabemos qué son los alelos. No tenemos un concepto de aptitud genética inclusiva hasta que nuestros científicos descubran qué es eso. No sabemos para qué estamos siendo optimizados. ¡Durante mucho tiempo, muchos humanos pensaron que habían sido creados por Dios!
Cuando usa el paradigma de escalar colinas y optimiza para una sola cosa extremadamente pura, esta es la cantidad que ingresa.
En el entorno ancestral, en la distribución exacta para la que estábamos originalmente optimizados, los humanos tendían a terminar usando su inteligencia para tratar de reproducirse más. Póngalos en un entorno diferente, y todas las pequeñas piezas y fragmentos de optimización para la aptitud que estaban en nosotros ahora hacen cosas totalmente diferentes. Tenemos sexo, pero usamos condones.
Si la selección natural hubiera sido un tipo de ingeniero inteligente y perspicaz que fuera capaz de diseñar cosas con éxito, nos habría hecho sentir repugnancia ante la idea de los condones. Los hombres estarían alineados y luchando por el derecho a donar a los bancos de esperma. Y en nuestro entorno natural, el pequeñas unidades lo que nos pasó condujo a una mayor reproducción, pero a un cambio en la distribución: elimine a los humanos de su distribución sobre la cual fueron optimizados y obtendrá resultados totalmente diferentes.
Y el descenso de gradiente haría por defecto, no exactamente lo mismo, va a hacer algo más extraño porque la selección natural tiene un cuello de botella de información mucho más estrecho. En cierto sentido, se podría decir que la selección natural tenía ventaja porque encuentra más simple soluciones Podrías imaginar a un ingeniero esperanzado que acaba de construir inteligencias utilizando gradientes descendentes y descubre que terminan queriendo estos miles y millones de pequeñas cosas, ninguna de las cuales era exactamente lo que el ingeniero quería, y diciendo, bueno, intentemos con la selección natural. en cambio. Tiene un cuello de botella de información mucho más agudo. Encontrará el simple especificación de lo que quiero.
Pero en realidad llegamos allí como humanos. Y luego, el descenso de gradiente, probablemente sea aún peor.
Pero lo que es más importante, solo estoy señalando que no existe una ley física, una ley computacional, una ley matemática/lógica, y digo que cuando optimizas usando la escalada en un criterio muy simple y muy definido, obtienes una inteligencia general que quiere que cosa.
Ryan: Entonces, al igual que la selección natural, ¿nuestras herramientas son demasiado contundentes para llegar a ese nivel de granularidad para programar algún tipo de moralidad en estos sistemas súper inteligentes?
Eliezer: O constrúyeme una copia de una fresa sin destruir el mundo. Sí. Las herramientas son demasiado contundentes.
David: Así que solo quiero asegurarme de que estoy siguiendo lo que estabas diciendo. Creo que la conclusión que me dejaste es que mi cerebro, que considero al menos decentemente inteligente, es en realidad un subproducto, un subproducto accidental de este deseo de reproducir. Y en realidad es como una herramienta que tengo, y como el pensamiento consciente es una herramienta, que es una herramienta útil para ese fin.
Entonces, si estamos aplicando esto a la IA y el deseo de la IA de lograr un objetivo determinado, ¿cuál es el paralelo allí?
Eliezer: Quiero decir, cada órgano de tu cuerpo es un órgano reproductivo. Si no te ayudara a reproducirte, no tendrías un órgano así. Tu cerebro no es una excepción. Esto es meramente ciencia convencional y meramente la comprensión convencional del mundo. No estoy diciendo nada aquí que deba ser en absoluto controvertido. Estoy seguro de que es controvertido en alguna parte, pero dentro de una audiencia previamente filtrada, no debería ser controvertido en absoluto. Y esto es, como, lo obvio que se espera que suceda con la IA, porque ¿por qué no sucedería? ¿Qué nueva ley de existencia se ha invocado, mediante la cual esta vez optimizamos para una cosa y obtenemos una cosa que quiere exactamente lo que optimizamos en el exterior?
Ryan: Entonces, ¿cuáles son los tipos de objetivos que una IA podría querer perseguir? ¿Qué tipos de funciones de utilidad va a querer perseguir desde el principio? ¿Son solo aquellos con los que ha sido programado, como hacer una fresa idéntica?
Eliezer: Bueno, todo lo que digo es que no sabemos cómo introducir objetivos en un sistema. Podemos hacer que hagan algo dentro de una distribución en la que fueron optimizados usando el descenso de gradiente. Pero si los cambia fuera de esa distribución, espero que comiencen a suceder otras cosas extrañas. Cuando reflexionan sobre sí mismos, comienzan a suceder otras cosas extrañas.
¿Qué tipo de funciones de utilidad hay ahí? Quiero decir, maldita sea si lo sé. Creo que te resultaría bastante difícil determinar la forma de los humanos desde el principio al observar la selección natural, aquello para lo que la selección natural estaba optimizando, si nunca hubieras visto un humano o algo parecido a un humano.
Si los optimizamos desde el exterior para predecir la siguiente línea de texto humano, como GPT-3, en realidad no creo que esta línea de tecnología conduzca al fin del mundo, pero tal vez lo haga, como GPT-7. Probablemente también haya un montón de cosas que deseen modelar con precisión cosas como los humanos en una amplia gama de circunstancias, pero no son exactamente humanos, porque: helado.
El helado no existía en el entorno natural, el entorno ancestral, el entorno de adaptación evolutiva. No había nada con tanta azúcar, sal, grasa combinada como helado. No estamos hechos para querer helado. Fuimos creados para querer fresas, miel, una gacela que mataste y cocinaste y tenía algo de grasa y, por lo tanto, era nutritiva y te daba las calorías más importantes que necesitabas para sobrevivir, sal, para que no sudaras demasiado y quedarse sin sal. Evolucionamos para querer esas cosas, pero luego aparece el helado y se adapta mejor a esas papilas gustativas que cualquier cosa que existiera en el entorno en el que estábamos optimizados.
Entonces, una conjetura salvaje muy primitiva, muy básica, muy poco confiable, pero al menos una especie de conjetura salvaje informada: tal vez si entrenas una cosa realmente difícil de predecir humanos, entre las cosas que le gustan hay pequeñas pseudocosas que cumplen la definición de “humano” pero no estaban en sus datos de entrenamiento y que son mucho más fáciles de predecir, o donde el problema de predecirlos puede resolverse de una manera más satisfactoria, donde “satisfactorio” no es como la satisfacción humana, pero algunos otro criterio de “pensamientos como este son sabrosos porque te ayudan a predecir los humanos a partir de los datos de entrenamiento”. (se encoge de hombros)
David: Eliezer, cuando hablamos de todas estas ideas sobre las formas en que la IA pensó, fundamentalmente no podrán ser entendidas por las formas en que los humanos piensan, y luego, de repente, vemos esta rotación por parte de los capitalistas de riesgo simplemente invirtiendo dinero en la IA. , ¿te suenan las alarmas en la cabeza? Como, hola chicos, ¿todavía no habéis pensado profundamente en estos temas? ¿Le asusta la inmensa cantidad de capital que se destina a inversiones en IA?
Eliezer: Quiero decir, las alarmas se dispararon para mí en 2015, que fue cuando se hizo evidente que así es como iba a suceder. Estoy seguro de que ahora estoy viendo la realización de esas cosas por las que me sentí alarmado en ese entonces.
Ryan: Eliezer, ¿es esta opinión de que la IA es increíblemente peligrosa y que la AGI finalmente acabará con la humanidad y que nos estamos acercando a un precipicio? ¿Dirías que esta es la opinión de consenso ahora, o sigues siendo algo atípico? ¿Y por qué otras personas inteligentes en este campo no están tan alarmadas como usted? Puede hombre de Acero sus argumentos?
Eliezer: Estás haciendo, nuevamente, varias preguntas secuencialmente allí. ¿Es la opinión de consenso? No. ¿Creo que las personas en el campo científico más amplio que discuten este punto de vista, creo que lo entienden? ¿Creo que han hecho algo así como un trabajo impresionante al argumentar en contra? No.
Si nos fijamos en los científicos famosos y prestigiosos que a veces se burlan un poco de este punto de vista al pasar, están inventando argumentos en lugar de considerar profundamente las cosas que están sujetas a cualquier estándar de rigor, y las personas fuera de sus propios campos pueden válidamente derribarlos.
No tengo ni idea de cómo pronunciar su apellido. Francis Chollet dijo algo sobre, olvidé su exacto palabras, pero era algo como, nunca escucho buenos argumentos para las cosas. Yo estaba como, está bien, aquí hay algunos buenos argumentos para las cosas. Puedes leer la respuesta de Yudkowsky a Chollet y Google eso, y eso le dará una idea de cómo suenan las voces eminentes versus la respuesta a las voces eminentes. Y Scott Aronson, que en ese momento estaba fuera de la teoría de la complejidad, dijo: “Así no es como funcionan los teoremas de comida gratis”, correctamente.
Creo que el estado de cosas es que tenemos voces científicas eminentes que se burlan de esta posibilidad, pero no se involucran con los argumentos a favor.
Ahora, si te alejas de las voces científicas eminentes, puedes encontrar personas que están más familiarizadas con todos los argumentos y no están de acuerdo conmigo. y creo que les falta mentalidad de seguridad. Creo que se están involucrando en el tipo de optimismo ciego en el que se han involucrado muchos, muchos campos científicos a lo largo de la historia, donde cuando te acercas a algo por primera vez, no sabes por qué será difícil, y imagina maneras fáciles de hacer las cosas. Y la forma en que se supone que esto se desarrolla de forma natural en la historia de un campo científico es que se agota e intenta hacer las cosas y no funcionan, y regresa e intenta hacer otras cosas inteligentes y tampoco funcionan, y aprendes algo de pesimismo y empiezas a entender las razones por las que el problema es difícil.
El campo de la inteligencia artificial en sí mismo recapituló esta ontogenia muy común de un campo científico, donde inicialmente teníamos gente reunida en la conferencia de Dartmouth. Olvidé cuál era exactamente su frase famosa, pero es algo así como: “Queremos abordar el problema de hacer que las IA, ya sabes, entiendan el lenguaje, se mejoren a sí mismas”, y olvido incluso qué más había allí. Una lista de lo que ahora suenan como grandes desafíos. “Y creemos que podemos lograr un progreso sustancial en esto con 10 investigadores durante dos meses”. Y creo que en el fondo es lo que está pasando.
No se han topado con los problemas reales de alineación. No están tratando de adelantarse al juego. No están tratando de entrar en pánico temprano. Están esperando que la realidad los golpee en la cabeza y los convierta en viejos cínicos canosos de su campo científico que entienden las razones por las que las cosas son difíciles. Están contentos con el ciclo de vida predecible de comenzar como jóvenes de ojos brillantes, esperando que la realidad los golpee en la cabeza con las noticias. Y si no fuera a matar a todos la primera vez que están realmente equivocados, ¡estaría bien! Ya sabes, ¡así es como funciona la ciencia! Si tuviéramos reintentos gratuitos ilimitados y 50 años para resolver todo, estaría bien. Podríamos descubrir cómo alinear la IA en 50 años con reintentos ilimitados.
Ya sabes, el primer equipo con los optimistas de ojos brillantes destruiría el mundo y la gente diría, oh, bueno, ya sabes, no es tan fácil. Intentarían algo más inteligente. Eso destruiría el mundo. La gente diría, oh, bueno, ya sabes, tal vez este campo sea realmente difícil. Tal vez esto sea realmente una de las cosas espinosas como la seguridad informática o algo así. Entonces, ¿qué fue exactamente lo que salió mal la última vez? ¿Por qué no surgieron estas esperanzadoras ideas? Oh, como si optimizaras una cosa por fuera y obtuvieras algo diferente por dentro. Guau. Eso es realmente básico. Está bien. ¿Podemos incluso hacer esto usando el descenso de gradiente? ¿Puedes incluso construir esta cosa a partir de matrices gigantes e inescrutables de números de coma flotante que nadie entiende en absoluto? Sabes, tal vez necesitemos una metodología diferente. Y 50 años después, tendría un AGI alineado.
Si tuviéramos reintentos gratuitos ilimitados sin destruir el mundo, sería, ya sabes, se desarrollaría de la misma manera que se desarrolló ChatGPT. Es, ya sabes, desde 1956 o 1955 o lo que sea hasta 2023. Entonces, ya sabes, unos 70 años, más o menos. Y, ya sabes, al igual que podemos hacer las cosas que querían hacer en el verano de 1955, ya sabes, 70 años después, tendrías tu AGI alineado.
El problema es que el mundo fue destruido mientras tanto. Y por eso, ya sabes, ese es el problema ahí.
David: Así que esto se siente como un gigante no mires hacia arriba guión. Si está familiarizado con esa película, es una película sobre este asteroide que se precipita hacia la Tierra, pero se vuelve popular y está de moda no mirar hacia arriba y no notarlo. Y Eliezer, eres el tipo que está diciendo, hey, hay un asteroide. Tenemos que hacer algo al respecto. Y si no lo hacemos, vendrá a destruirnos.
Si tuviera el modo de Dios sobre el progreso de la investigación de la IA y solo la innovación y el desarrollo, ¿qué decisiones tomaría que los humanos no están tomando actualmente?
Eliezer: Quiero decir, podría decir algo como apagar todos los clústeres de GPU grandes. ¿Cuánto tiempo tengo el modo Dios? ¿Me gusta quedarme setenta años?
David: Tienes el modo Dios para la década de 2020.
Eliezer: Para la década de 2020. Está bien. Eso hace que sea bastante difícil hacer las cosas.
Creo que cerré todos los grupos de GPU y obtuve a todos los científicos famosos y jóvenes brillantes y talentosos, la gran mayoría de los cuales no serán productivos y los burócratas del gobierno no podrán saber quién es realmente. útil o no, pero, ya sabes, colócalos a todos en una isla grande y trata de encontrar algún sistema para filtrar las cosas hasta mí para dar los pulgares hacia arriba o hacia abajo, eso funcionará mejor que los burócratas científicos que producen todo. disparates.
Porque, ya sabes, el problema es la razón por la cual los campos científicos tienen que pasar por este largo proceso para producir los viejos cínicos que saben que todo es difícil. No es que los jóvenes sean estúpidos. Ya sabes, a veces los jóvenes son bastante inteligentes. Ya sabes, Marvin Minsky, John McCarthy en 1955, no eran idiotas. Ya sabes, un privilegio haberlos conocido a ambos. No me parecieron idiotas. Eran muy viejos, y todavía no eran idiotas. Pero, ya sabes, es difícil ver lo que viene antes de que la evidencia experimental te golpee en la cabeza.
Y si solo tengo la década de 2020 para llevar a todos los investigadores de esta isla gigante a alguna parte, en realidad no es mucho tiempo. Principalmente, lo que tienes que hacer es inventar un paradigma de IA completamente nuevo que no sean las gigantescas matrices inescrutables de números de punto flotante en descenso de gradiente. Porque realmente no veo qué puedes hacer que sea inteligente con eso, que no te mate y que sepas que no te mata y no te mata la primera vez que intentas hacer algo inteligente como eso.
Sabes, estoy seguro de que hay a manera de hacerlo Y si tuvieras que intentarlo una y otra vez, podrías encontrarlo.
Ryan: Eliezer, ¿piensas que toda civilización inteligente tiene que lidiar con este problema exacto que enfrenta la humanidad ahora? ¿De cómo resolvemos este problema de alinearnos con una inteligencia general avanzada?
Eliezer: Espero que sea mucho más fácil para algunas especies alienígenas que para otras. Por ejemplo, hay especies alienígenas que podrían llegar a “este problema” de una manera completamente diferente. Tal vez en lugar de tener dos sistemas de procesamiento de información completamente diferentes, el ADN y las neuronas, solo tienen un sistema. Pueden intercambiar recuerdos hereditariamente intercambiando sangre sexualmente. Tal vez la forma en que “enfrentan este problema” es que muy temprano en su historia evolutiva, tienen el equivalente del ADN que almacena recuerdos y procesa, calcula recuerdos, y intercambian un montón, y suma algo que se refleja en sí mismo y se vuelve coherente, y luego tienes una superinteligencia antes de que hayan inventado las computadoras. Y tal vez esa cosa no estaba alineada, pero ¿cómo la alineas cuando estás en ese tipo de situación? Sería un ángulo muy diferente sobre el problema.
Ryan: ¿Crees que todas las civilizaciones avanzadas están en camino de crear una superinteligencia en algún momento de su historia?
Eliezer: Tal vez haya algunos en universos con física alternativa donde simplemente no puedes hacer eso. La física computacional de su universo simplemente no admite tantos cálculos. Tal vez nunca lleguen allí. Tal vez su esperanza de vida sea lo suficientemente larga y su vida estelar lo suficientemente corta como para que nunca lleguen al punto de una civilización tecnológica antes de que su estrella haga el equivalente a expandirse o explotar o apagarse y su planeta termine.
“Cada especie alienígena” cubre mucho territorio, especialmente si hablas de especies alienígenas y universos con una física diferente a esta.
Ryan: Bueno, hablando de nuestro universo actual, tengo curiosidad si te has enfrentado a la pregunta de, bueno, entonces ¿por qué no hemos visto algún tipo de superinteligencia en nuestro universo cuando miramos las estrellas? Una especie de pregunta del tipo de la paradoja de Fermi. ¿Tienes alguna explicación para eso?
Eliezer: Oh, bueno, suponer que fueron asesinados por sus propias IA no ayuda en absoluto con eso porque entonces veríamos las IA.
Ryan: ¿Y crees que eso es lo que sucede? Sí, no ayuda con eso. Veríamos evidencia de IA, ¿no?
Eliezer: Sí.
Ryan: Sí. Entonces, ¿por qué no lo hacemos?
Eliezer: Quiero decir, la misma razón por la que no vemos evidencia de civilizaciones alienígenas que no tengan IA.
Y esa razón es que, aunque en realidad no tiene mucho que ver con toda la tesis de la IA de una forma u otra, porque están demasiado lejos, o eso dice Robin Hanson, usando un argumento muy inteligente sobre la aparente dificultad de la inteligencia artificial. pasos en la historia evolutiva de la humanidad para inducir aún más la brecha aproximada entre los pasos difíciles. … Y, sabes, realmente no puedo hacerle justicia a esto. Si buscas extraterrestres agarradores, puedes…
Ryan: ¿Alienígenas agarradores?
David: Yo recuerdo esto.
Eliezer: Extranjeros agarradores. Puedes encontrar el argumento muy inteligente de Robin Hanson sobre cuán lejos están los extraterrestres…
Ryan: Hay un sitio web completo, oyentes de Bankless, hay un sitio web completo llamado grabbyaliens.com puedes ir a mirar.
Eliezer: Sí. Y eso contiene, con mucho, la mejor respuesta que he visto, a:
- “¿Dónde están?” (Respuesta: demasiado lejos para que podamos verlos, incluso si están viajando hacia aquí casi a la velocidad de la luz).
- ¿Qué tan lejos están?
- ¿Y cómo sabemos eso?
(risas) Pero sí.
Ryan: Esto es increíble.
Eliezer: No hay una forma muy buena de simplificar el argumento, como tampoco lo hay de simplificar la noción de pruebas de conocimiento cero. No es tan difícil, pero no es fácil de simplificar. Pero si tiene un montón de bloqueos que tienen diferentes dificultades, y un tiempo limitado para resolver todos los bloqueos, de modo que cualquiera que atraviese todos los bloqueos debe haberlos superado por suerte, todos los bloqueos se llevarán a cabo. la misma cantidad de tiempo para resolver, incluso si son todos de dificultades muy diferentes. Y ese es el núcleo del argumento de Robin Hanson sobre qué tan lejos están los extraterrestres y cómo lo sabemos. (se encoge de hombros)
Ryan: Eliezer, sé que eres muy escéptico de que habrá un buen resultado cuando produzcamos una inteligencia general artificial. Y dije cuándo, no si, porque creo que esa es tu tesis también, por supuesto. Pero, ¿existe la posibilidad de un buen resultado? Sé que está trabajando en problemas de alineación de IA, lo que me lleva a creer que tiene más que cero esperanzas para este proyecto. ¿Existe la posibilidad de un buen resultado? ¿Cómo sería eso, y cómo hacemos para lograrlo?
Eliezer: Parece que me estoy equivocando. Básicamente, no veo resultados esperanzadores en el modelo en este momento. No hemos hecho las cosas necesarias para obtener un buen resultado, y este no es un caso en el que se obtiene un buen resultado por accidente.
Si hay un grupo de personas que están armando un nuevo sistema operativo y han oído hablar de la seguridad informática, pero se muestran escépticos de que sea realmente tan difícil, la posibilidad de que produzcan un sistema operativo seguro es efectivamente cero.
Esa es básicamente la situación en la que me veo con respecto a la alineación de la IA. Tengo que estar equivocado acerca de algo, que ciertamente lo estoy. Tengo que estar equivocado acerca de algo de una manera que hace que el problema más fácil en vez de más difícil para aquellas personas que no creen que la alineación va a ser tan difícil.
Si está construyendo un cohete por primera vez y se equivoca en algo, no es sorprendente que se equivoque en algo. Es sorprendente si la cosa en la que estás equivocado hace que el cohete suba el doble de alto con la mitad del combustible que pensabas que se requería y sea mucho más fácil de manejar de lo que temías.
Ryan: Entonces, ¿estás…
David: Donde la alternativa era: “Si te equivocas en algo, el cohete explota”.
Eliezer: Sí. Y luego el cohete enciende la atmósfera, ahí está el problema.
O más bien: un montón de cohetes explotan, un montón de cohetes van a lugares… La analogía que suelo usar para esto es que, muy al principio del Proyecto Manhattan, estaban preocupados por “¿Qué pasa si las armas nucleares pueden encender la fusión en el nitrógeno?” ¿en la atmósfera?” E hicieron algunos cálculos y decidieron que era increíblemente improbable para múltiples ángulos, así que siguieron adelante y estaban en lo correcto. Todavía estamos aquí. No voy a decir que fue suerte, porque los cálculos fueron bastante sólidos.
Una IA es así, pero en lugar de necesitar refinar plutonio, puedes fabricar armas nucleares con mil millones de toneladas de detergente para ropa. El material para hacerlos está bastante extendido. No es una sustancia estrictamente controlada. Y escupen oro hasta que crecen lo suficiente, y entonces encienden la atmósfera, y no se puede calcular qué tan grande es lo suficientemente grande. Y un grupo de los directores ejecutivos que ejecutan estos proyectos se burlan de la idea de que encenderá la atmósfera.
No es una situación muy útil.
David: Entonces, el incentivo económico para producir esta IA, una de las cosas por las que ChatGPT ha despertado la imaginación de tantas personas es que todos pueden imaginar productos. Los productos se imaginan a diestra y siniestra sobre lo que puede hacer con algo como ChatGPT. Hay un meme en este punto de personas que se van para comenzar su inicio de ChatGPT.
La metáfora es que lo que estás diciendo es que existe este recurso generalmente disponible repartido por todo el mundo, que es ChatGPT, y todos lo están golpeando para que escupa oro. Pero estás diciendo que si hacemos eso demasiado, de repente el sistema encenderá todo el cielo, y luego todos…
Eliezer: Bueno no. Puede ejecutar ChatGPT cualquier número de veces sin encender la atmósfera. Eso es lo que están haciendo los laboratorios de investigación en Google y Microsoft, contando a DeepMind como parte de Google y contando a OpenAI como parte de Microsoft, eso es lo que están haciendo los laboratorios de investigación, reuniendo más plutonio metafórico que nunca. No se trata de cuántas veces ejecutas las cosas que se han construido y aún no han destruido el mundo.
Puedes hacer cualquier cantidad de cosas con ChatGPT y no destruir el mundo. No es tan inteligente. No se vuelve más inteligente cada vez que lo ejecutas.
Ryan: ¿Puedo hacer algunas preguntas que el niño de 10 años que hay en mí realmente quiera hacer sobre esto? Estoy haciendo estas preguntas porque creo que muchos de los oyentes también podrían estar pensando en ellas, así que elimine algunas de estas respuestas fáciles para mí.
Si creamos algún tipo de IA no alineada, llamémosla “mala”, ¿por qué no podemos simplemente crear un montón de IA buenas para luchar contra las IA malas y resolver el problema de esa manera? ¿No puede haber algún tipo de contrapeso en términos de IA humanas alineadas e IA malvadas, y haber algún tipo de batalla de las mentes artificiales aquí?
Eliezer: Nadie sabe cómo crear buenas IA en absoluto. El problema no es que tengamos 20 IA buenas y luego alguien finalmente construya una IA malvada. El problema es que la primera IA muy poderosa es malvada, nadie sabe cómo hacerla buena, y luego mata a todos antes de que alguien pueda hacerla buena.
Ryan: Por lo tanto, no existe una forma conocida de crear una IA amigable y alineada con los humanos, y no conoce una buena manera de pensar en ese problema y diseñar uno. Nadie más tampoco, es lo que nos cuentas.
Eliezer: Tengo una idea de lo que haría si hubiera más tiempo. En el pasado, teníamos más tiempo. La humanidad lo derrochó. No estoy seguro de que quede suficiente tiempo ahora. Tengo una idea de lo que haría si tuviera un cuerpo de 25 años y tuviera $ 10 mil millones.
Ryan: ¿Ese sería el escenario isleño de “Eres Dios durante 10 años y reúnes a todos los investigadores en una isla y realmente trabajas durante 10 años en este problema”?
Eliezer: Si tengo la aceptación de un gobierno importante que puede ejecutar precauciones de seguridad reales y más de $ 10 mil millones, entonces podría ejecutar todo un Proyecto Manhattan al respecto, seguro.
Ryan: Esta es otra pregunta que el niño de 10 años que hay en mí quiere saber. ¿Por qué, Eliezer, las personas que escuchan este episodio o las personas que escuchan las inquietudes o leen las inquietudes que anotaste y publicaste, por qué no pueden unirse todos los que están construyendo una IA y todos están de acuerdo en ser muy , ¿muy cuidadoso? ¿No es esa una posición de teoría de juegos sostenible? ¿Es esto un problema de coordinación, más un problema social que otra cosa? O, como, ¿por qué no puede ¿eso pasa?
Quiero decir, hasta ahora no hemos destruido el mundo con armas nucleares, y las hemos tenido desde la década de 1940.
Eliezer: Sí, esto es más difícil que las armas nucleares. Esto es un lote más duro que las armas nucleares.
Ryan: ¿Por qué es esto más difícil? ¿Y por qué no podemos simplemente coordinarnos para estar de acuerdo internacionalmente en que vamos a ser muy cuidadosos, poner restricciones a esto, ponerle regulaciones, hacer algo así?
Eliezer: Me parece que los directores actuales de los principales laboratorios desprecian abiertamente estos temas. Ahí es donde estamos empezando. Los políticos no lo entienden.
Hay distorsiones de estas ideas que van a sonar más atractivas para ellos que “todo el mundo cae muerto de repente”, que es algo que creo que realmente sucede. “Todos caen muertos” simplemente no inspira las partes políticas mono de nuestro cerebro de alguna manera. Porque no es como, “Oh no, ¿qué pasa si los terroristas obtienen la IA primero?” Es como, no importa quién lo consigue primero. Todo el mundo cae muerto.
Y sí, estás describiendo un mundo coordinado en algo que es relativamente difícil de coordinar. Entonces, ¿podríamos, si intentáramos a partir de hoy, evitar que alguien obtenga mil millones de libras de detergente para ropa en un solo lugar en todo el mundo, controlar la fabricación de detergente para ropa, hacer que solo se fabrique en lugares específicos, no concentrar muchos juntos, hacer cumplir en cada país?
Ya sabes, si fuera legible, si fuera claro que mil millones de libras de detergente para ropa en un solo lugar acabarían con el mundo, si pudieras calcular eso, si todos los científicos calcularan llegaran a la misma respuesta y les dijeran a los políticos que tal vez, tal vez la humanidad sobreviviría, aunque cantidades más pequeñas de ropa detergente escupe oro.
No se puede calcular el umbral. No sé cómo convencerías a los políticos. Definitivamente no parece que hayamos tenido mucha suerte convenciendo a esos directores ejecutivos cuyo trabajo depende de que no les importe, que les importe. El cuidado es fácil de falsificar. Es fácil contratar a un grupo de personas para que sean su “equipo de seguridad de IA” y redefinir la “seguridad de IA” como que la IA no diga malas palabras. O, ya sabes, estoy hablando algo metafóricamente aquí por razones.
Pero, ya sabes, el problema básico que tenemos es como tratar de construir un sistema operativo seguro antes de encontrarnos con un atacante realmente inteligente. Y hay todo tipo de seguridad falsa. ¡Tiene un archivo de contraseñas! ¡Este sistema es seguro! ¡Solo te deja entrar si escribes una contraseña!” Y si nunca te enfrentas a un atacante realmente inteligente, si nunca te alejas demasiado de la distribución frente a un poderoso proceso de optimización que busca agujeros, entonces, ¿cómo llega a saber una burocracia que lo que está haciendo no es el nivel de seguridad informática que necesitan? La forma en que se supone que debes descubrir esto, la forma en que los campos científicos históricamente lo descubren, la forma en que los campos de la informática históricamente lo descubren, la forma en que las criptomonedas lo descubrieron en los primeros días, es teniendo la desastre suceda!
¡Y ni siquiera somos tan buenos para aprender de desastres relativamente menores! Ya sabes, como, COVID barrió el mundo. ¿Aprendieron algo la FDA o los CDC sobre “No le digan a los hospitales que no pueden usar sus propias pruebas para detectar la plaga que se avecina”? ¿Estamos instalando luces UV-C en espacios públicos o en sistemas de ventilación para prevenir la próxima pandemia respiratoria? Sabes, perdimos un millón de personas y seguro que no aprendimos mucho, por lo que puedo decir, para la próxima vez.
Podríamos tener un desastre de IA que mate a cien mil personas, ¿cómo siquiera hacer ¿eso? ¿Coches robóticos chocando entre sí? ¡Haz que un montón de autos robóticos choquen entre sí! No va a parecer que eso fue culpa de la inteligencia artificial general porque no van a poner AGI a cargo de los automóviles. Van a aprobar un montón de regulaciones que afectarán todo el desastre de AGI o no afectarán en absoluto.
¿Cómo se ve el mundo ganador aquí? ¿Cómo llegamos en la vida real desde donde estamos ahora a esta prohibición mundial, incluso contra Corea del Norte y, ya sabes, una nación rebelde cuyo dictador no cree en todas estas tonterías y solo quiere el oro que escupen estas IA? ? ¿Cómo llegamos allí desde aquí? ¿Cómo llegamos al punto en que Estados Unidos y China firmaron un tratado por el cual ambos usarían armas nucleares contra Rusia si Rusia construyera un grupo de GPU que fuera demasiado grande? ¿Cómo llegamos allí desde aquí?
David: Corrígeme si me equivoco, pero esto parece ser como un tema de desesperación. Estoy hablando contigo ahora y escuchando tu proceso de pensamiento sobre, como, no hay una solución conocida y la trayectoria no es buena. ¿Crees que aquí se ha perdido toda esperanza?
Eliezer: Seguiré luchando hasta el final, lo cual no haría si tuviera literalmente cero esperanzas. Todavía podría estar equivocado acerca de algo que hace que este problema sea mucho más fácil de lo que parece actualmente. Creo que así es como bajas peleando con dignidad.
Ryan: “Baja peleando con dignidad”. Esa es la etapa en la que crees que estamos.
Solo quiero hacer doble clic en lo que acabas de decir. Parte del caso que estás presentando es que la humanidad ni siquiera verá venir esto. Así que no es un problema de coordinación como el calentamiento global donde cada par de décadas vemos que el mundo sube un par de grados, las cosas se calientan más y comenzamos a ver estos efectos con el tiempo. ¿Las características o el advenimiento de un AGI en tu mente va a suceder increíblemente rápido, y de tal manera que ni siquiera veremos el desastre hasta que sea inminente, hasta que esté sobre nosotros…?
Eliezer: Quiero decir, si quieres algún tipo de redacción formal, entonces creo que la superinteligencia matará a todos antes de que las IA no superinteligentes hayan matado a un millón de personas. No sé si esa es la frase que estás buscando allí.
Ryan: Creo que es una definición bastante precisa, ¿y por qué? ¿Qué entra en esa línea de pensamiento?
Eliezer: Creo que los sistemas actuales son en realidad muy débiles. No sé, tal vez podría usar la analogía de Go, donde tenías sistemas que finalmente eran competitivos con los profesionales, donde “pro” es como el conjunto de rangos en Go, y luego, un año después, estaban desafiando a los campeón mundial y ganador. Y luego, otro año, eliminaron todas las complejidades y el entrenamiento de las bases de datos humanas de los juegos de Go y construyeron un nuevo sistema, AlphaGo Zero, que se entrenó a sí mismo desde cero. Sin mirar los libros de jugadas humanos, sin código de propósito especial, solo un jugador de juego de propósito general especializado en Go, más o menos.
Y, tres días, hay una cita de Gwern sobre esto, que olvidé exactamente, pero era algo así como: “Sabemos cuánto tiempo AlphaGo Zero, o AlphaZero (dos sistemas diferentes), fue equivalente a un jugador humano de Go. Y fueron como 30 minutos en el siguiente piso de tal o cual edificio DeepMind”.
Tal vez el primer sistema no mejore tan rápidamente, y construyen otro sistema que sí lo hace. Y todo eso con AlphaGo a lo largo de los años, pasando de “se necesita mucho tiempo para entrenar” a “se entrena muy rápido y sin mirando el libro de jugadas humano”, eso es no con un sistema de inteligencia artificial que se mejora a sí mismo, o incluso que se vuelve más inteligente a medida que lo ejecuta, la forma en que mejoran los seres humanos (no solo a medida que los desarrolla, sino a medida que los ejecuta a lo largo de sus propias vidas).
Entonces, si el primer sistema no mejora lo suficientemente rápido como para matar a todos muy rápido, construirán uno que está destinado a escupir más oro que eso.
Y podría haber cosas extrañas que sucedan antes del final. No vi venir ChatGPT, no vi venir Stable Diffusion, no esperaba que tuviéramos IA fumando humanos en batallas de rap antes del fin del mundo. Unos que son claramente mucho más tontos que nosotros.
Ryan: Es una especie de buena despedida, supongo, de alguna manera.
Ryan: Entonces dijiste que tu esperanza no es cero y que planeas luchar hasta el final. ¿Qué te parece eso? Sé que trabajas en MIRI, que es el Instituto de Investigación de Inteligencia Artificial. Esta es una organización sin fines de lucro que creo que ha creado para trabajar en estos problemas de alineación y seguridad de la IA. ¿Qué estás haciendo ahí? ¿En qué estás gastando tu tiempo? ¿Cómo luchamos hasta el final? Si crees que se acerca un final, ¿cómo tratamos de resistir?
Eliezer: De hecho, estoy en una especie de año sabático en este momento, por lo que tengo tiempo para podcasts. Es un año sabático de, ya sabes, como, estado haciendo esto 20 años. Quedó claro que todos íbamos a morir. Me sentí un poco agotado, tomándome un tiempo para descansar en este momento. Cuando me sumerja de nuevo en la piscina, no sé, tal vez me vaya a Conjecture o Anthropic o a uno de los más pequeños. preocupaciones como Redwood Research (Redwood Research es el único en el que realmente confío en este momento, pero son pequeños) y trato de averiguar si I puede ver algo inteligente que hacer con las matrices inescrutables gigantes de números de coma flotante.
Tal vez solo escribo, sigo tratando de explicar de antemano a la gente por qué este problema es difícil en lugar de tan fácil y alegre como la gente actual que piensa que es pesimista cree que será. Puede que no esté trabajando tan duro en comparación con la forma en que solía trabajar. Soy mayor de lo que era. Mi cuerpo no goza de la mejor salud en estos días. Caer peleando no implica necesariamente que tenga la resistencia para pelear tan duro. Ojalá tuviera cosas más bonitas que decirte aquí, pero no las tengo.
Ryan: No, esto es… Teníamos la intención de guardar probablemente la última parte de este episodio para hablar sobre la criptografía, el metaverso y la IA y cómo todo esto se cruza. Pero debo decir que, en este punto del episodio, parece inútil seguir ese camino.
Íbamos a hacer preguntas como, bueno, en criptografía, ¿deberíamos preocuparnos por construir una especie de sistema de derechos de propiedad, un sistema económico, un sistema de dinero programable para que las IA lo usen contra nosotros más adelante? Pero parece que la respuesta fácil de su parte a esas preguntas sería, sí, absolutamente. Y por cierto, nada de eso importa a pesar de todo. Puedes hacer lo que quieras con las criptomonedas. Este va a ser el resultado inevitable pase lo que pase.
Déjame preguntarte, ¿qué le dirías a alguien que esté escuchando y que tal vez haya recuperado la sobriedad de esta conversación? Si una versión tuya de 20 años tiene la resistencia para continuar esta batalla y luchar en nombre de la humanidad contra esta amenaza existencial, ¿dónde les aconsejarías que pasen su tiempo? ¿Es esto un problema técnico? ¿Es esto un problema social? ¿Es una combinación de ambos? ¿Deberían educar? ¿Deberían pasar tiempo en el laboratorio? ¿Qué debería hacer una persona que escucha este episodio con este tipo de situaciones desesperadas?
Eliezer: No tengo muy buenas respuestas. Depende de cuáles sean tus talentos. Si tienes la versión muy profunda del mentalidad de seguridad, la parte en la que no solo coloca una contraseña en su sistema para que nadie pueda entrar y hacer un uso indebido directamente, sino en la que no solo encripta el archivo de contraseñas aunque se supone que nadie debe tener acceso al archivo de contraseñas en primer lugar, y eso ya es un usuario autorizado, pero la parte en la que hash las contraseñas y salteas los hash. Si usted es el tipo de persona que puede pensar en eso desde cero, tal vez tome su mano en la alineación.
Si puedes pensar en una alternativa a las matrices inescrutables gigantes, entonces, ya sabes, no le cuentes al mundo sobre eso. No estoy muy seguro de a dónde vas desde allí, pero tal vez trabajes con Redwood Research o algo así.
Gran parte de este problema es que incluso si construyes una IA que está limitada de alguna manera, alguien más la roba, la copia, la ejecuta ellos mismos y elimina los límites de los bucles for y el mundo termina.
Así que está eso. Crees que puedes hacer algo inteligente con las matrices inescrutables gigantes? Probablemente estés equivocado. Si tienes el talento para tratar de descubrir por qué estás equivocado antes de que te golpeen en la cabeza, y no de una manera en la que solo inventes cosas aleatorias inverosímiles como la razón por la que no funcionará. , pero donde realmente puedes seguir mirando por la razón por la que no funcionará…
Tenemos gente en cripto[graphy] que son buenos para romper cosas, y son la razón por la cual cualquier cosa no está en llamas. Algunos de ellos podrían dedicarse a romper los sistemas de inteligencia artificial, porque ahí es donde aprendes algo.
Ya sabes: cualquier tonto puede construir una cripto[graphy] sistema que creen que funcionará. Rotura sistemas criptográficos existentes es cómo aprendemos quiénes son los verdaderos expertos. Entonces, tal vez las personas que encuentran cosas raras que hacer con las IA, tal vez esas personas encuentren alguna verdad sobre estos sistemas que los haga más fáciles de alinear de lo que sospecho.
¿Cómo lo digo? Los atuendos más cuerdos tienen usos para el dinero. ellos realmente no tienen escalable utiliza para el dinero, pero queman cualquier dinero literalmente en absoluto. Por ejemplo, si le dieras a MIRI mil millones de dólares, no sabría cómo…
Bueno, con mil millones de dólares, podría tratar de sobornar a la gente para que abandone el desarrollo de IA, que se transmite a todo el mundo, y se traslade al equivalente de una isla en alguna parte, ni siquiera para hacer ningún tipo de descubrimiento crítico, sino simplemente para eliminarlos del sistema. Si tuviera mil millones de dólares.
Si solo tengo otros $ 50 millones, no estoy muy seguro de qué hacer con eso, pero si dona eso a MIRI, entonces al menos tiene la seguridad de que no gastaremos dinero al azar para que parezca que estamos haciendo cosas. y lo reservaremos, como lo estamos haciendo con la última donación criptográfica gigante que alguien nos dio hasta que podamos encontrar algo que hacer con eso que sea realmente útil. Y MIRI tiene esa propiedad. Diría que probablemente Redwood Research tiene esa propiedad.
Sí. Me doy cuenta de que estoy sonando un poco desorganizado aquí, y eso es porque realmente no tengo una buena respuesta organizada sobre cómo, en general, alguien cae peleando con dignidad.
Ryan: Conozco a mucha gente en criptografía. Obviamente, no están tan en contacto con la inteligencia artificial como usted, y los problemas de seguridad de la IA y la amenaza existencial que ha presentado en este episodio. Les importa mucho y ven los problemas de coordinación en toda la sociedad como un problema. Muchos también han generado riqueza a partir de las criptomonedas y se preocupan mucho por que la humanidad no se acabe. ¿Qué tipo de cosas ha hecho MIRI, la organización de la que hablé antes, con fondos que ha recibido de donantes de criptomonedas y de otros lugares? ¿Y qué tipo de cosas podría perseguir una organización como esa para tratar de evitar esto?
Eliezer: Quiero decir, creo que principalmente hemos seguido muchas líneas de investigación que realmente no han funcionado, lo cual es algo respetable. No sabíamos de antemano que esas líneas de investigación fracasarían. Si está haciendo una investigación que sabe que funcionará, probablemente no esté realmente investigando. Solo está haciendo una investigación fingida que puede presumir ante una agencia de financiación.
Intentamos ser reales. Hicimos cosas en las que no sabíamos la respuesta de antemano. No funcionaron, pero ahí estaba la esperanza, creo. Pero, ya sabes, tener una organización de investigación que mantiene la realidad de esa manera, no es algo fácil de hacer. Y si no tiene esta forma tan profunda de mentalidad de seguridad, terminará produciendo investigaciones falsas y haciendo más daño que bien, por lo que no le diría a todas las personas exitosas de criptomonedas que se escapen y comiencen sus propios equipos de investigación.
Redwood Research: no estoy seguro de si pueden escalar usando más dinero, pero puede darles a las personas más dinero y esperar a que descubran cómo escalarlo más tarde si son del tipo que no se van y gastan eso, que es lo que MIRI aspira a ser.
Ryan: ¿Y no crees que el camino de la educación es un camino útil? ¿Simplemente educar al mundo?
Eliezer: Quiero decir, me daría crédito a MIRI y a mí mismo por qué el mundo no está simplemente caminando a ciegas hacia las cuchillas de afeitar que giran aquí, pero no me queda claro hasta qué punto la educación se aleja de eso. Puede hacer que más personas se den cuenta de que estamos caminando directamente hacia las cuchillas de afeitar que giran, porque incluso si solo el 10% de las personas pueden obtenerlo, aún pueden ser un montón de personas. Pero entonces, ¿qué hacen? No sé. Quizá puedan hacer algo más tarde.
¿Puedes conseguir a todas las personas? ¿Puedes conseguir todos los políticos? ¿Puedes hacer que las personas cuyos incentivos laborales están en contra de ellos admitan que esto es un problema? Tengo varios amigos que informan, como, “Ah, sí, si hablas con los investigadores de OpenAI en privadoestán muy preocupados y dicen que no pueden estar tan preocupados en público”.
Ryan: Todo esto es un gigante Moloc trampa, es más o menos lo que nos estás diciendo. Siento que esta es la parte de la conversación en la que hemos llegado al final y el médico ha dicho que tenemos algún tipo de enfermedad terminal. Y al final de la conversación, creo que el paciente, David y yo, tenemos que hacer la pregunta: “Está bien, doctor, ¿cuánto tiempo tenemos?” En serio, ¿de qué estamos hablando aquí si resulta que tienes razón? ¿Hablamos de años? ¿Hablamos de décadas? ¿Cuál es tu idea aquí?
David: Cuáles son tú preparándose para, ¿sí?
Eliezer: ¿Cómo diablos lo sabría? Enrico Fermi estaba diciendo que las reacciones de los canales de fisión tardarían 50 años, si es que alguna vez se podían hacer, dos años antes de que construyera la primera pila nuclear. Los hermanos Wright decían que el vuelo más pesado que el aire estaba a 50 años de distancia poco antes de que construyeran el primer volante de Wright. ¿Cómo diablos lo sabría?
Podrían ser tres años. Podrían ser 15 años. Podríamos obtener ese invierno de IA que esperaba, y podrían ser 16 años. Realmente no veo 50 sin algún tipo de catástrofe civilizatoria gigante. Y para ser claros, cualquier civilización que surja después probablemente, supongo, terminará atrapada en la misma trampa que nosotros.
Ryan: Creo que otra cosa que el paciente podría hacer al final de una conversación como esta es consultar también con otros médicos. Tengo un poco de curiosidad con quién deberíamos hablar en esta búsqueda. ¿Quiénes son algunas personas que si las personas en cripto quieren escuchar más sobre esto o aprender más sobre esto, o incluso nosotros mismos como podcasters y educadores queremos seguir este tema, quiénes son las otras personas en el espacio de seguridad y alineación de IA que podría recomendar? para que tengamos una conversación?
Eliezer: Bueno, la persona que realmente tiene una visión técnica coherente, que no está de acuerdo conmigo, se llama Paul Christiano. Él no escribe fanfiction de Harry Potter, y espero que le cueste más explicarse a sí mismo en términos concretos. Pero esa es la principal voz técnica de la oposición. Si habla con otras personas en las comunidades de altruismo efectivo o alineación de IA que no están de acuerdo con este punto de vista, probablemente hasta cierto punto estén repitiendo sus malentendidos de los puntos de vista de Paul Christiano.
Podrías probar con Ajeya Cotra, que ha trabajado bastante directamente con Paul Christiano y creo que a veces aspira a explicar estas cosas que Paul no es el mejor para explicar. Voy a descartar a Kelsey Piper como alguien que sería bueno explicando, como que no pretendería ser una persona técnica en estos temas, pero es bueno explicando la parte que sí sabe.
¿Quién más no está de acuerdo conmigo? Estoy seguro de que Robin Hanson estaría feliz de participar… bueno, no estoy seguro de que esté feliz de participar en este podcast, pero Robin Hanson no está de acuerdo conmigo, y me siento como el famoso argumento que tuvimos a principios de la década de 2010, finales de la década de 2000 sobre cómo se desarrollaría todo esto: básicamente siento que esta era la posición de Yudkowsky, esta es la posición de Hanson, y luego la realidad estaba aquí, bien al lado de Yudkowsky de la posición de Yudkowsky en el debate Yudkowsky-Hanson. Pero Robin Hanson no se siente de esa manera, y probablemente estaría feliz de exponerlo extensamente.
No sé. No es difícil encontrar puntos de vista opuestos. Los que resistirán unos pocos minutos completos de contrainterrogatorio de alguien que sabe qué partes contrainterrogar, esa es la parte difícil.
Ryan: Sabes, he leído muchos de tus escritos y te escuché en podcasts anteriores. Uno fue en 2018 en el podcast de Sam Harris. Me parece que esta conversación es la más terrible que jamás hayas tenido sobre este tema. Y tal vez eso no sea cierto. Tal vez siempre ha sido así, pero parece que la dirección de su esperanza de que resolvamos este problema ha disminuido. Me pregunto si sientes que ese es el caso, y si podrías resumir tu opinión sobre todo esto mientras cerramos este episodio y ofrecer, supongo, algunos pensamientos finales aquí.
Eliezer: Quiero decir, no sé si tienes un límite de tiempo para este episodio. ¿O es tan largo como se ejecuta?
Ryan: Es tan largo como debe ser, y siento que este es un tema bastante importante. Así que contesta esto como quieras.
Eliezer: Está bien. Bueno, una vez hubo una conferencia sobre “¿Qué vamos a hacer con el riesgo inminente de un desastre de IA?”, y Elon Musk asistió a esa conferencia. Y yo estaba como,: Tal vez esto es todo. Tal vez aquí es cuando las personas poderosas se dan cuenta, y es una de las personas poderosas relativamente más técnicas la que podría estar notando esto. Y tal vez aquí es donde la humanidad finalmente da la vuelta y comienza… no del todo contraatacando, porque no hay un enemigo externo aquí, pero conduciéndose con… no sé. ¿Actuando como si le importara, tal vez?
Y lo que salió de esa conferencia, bueno, fue OpenAI, que fue casi la peor forma posible de hacer cualquier cosa. Este no es un problema de “Oh no, ¿qué pasa si las élites secretas obtienen IA?” Es que nadie sabe cómo construir la cosa. Si nosotros hacer tener una técnica de alineación, implicará ejecutar la IA con un montón de límites cuidadosos en los que no solo arrojas todo el poder cognitivo que tienes en algo. Tienes límites en los bucles for.
Y lo que sea que pueda salvar el mundo, como salir y convertir todas las GPU y los clústeres de servidores en cubos de Rubik o cualquier otra cosa que evite que el mundo termine cuando alguien más construya otra IA unas semanas más tarde, cualquier cosa que pueda hacer ese es un artefacto donde alguien más podría tomarlo y quitar los límites de los bucles for y usarlo para destruir el mundo.
¡Así que abramos todo! ¡Aceleremos todo! Era como la versión de GPT-3, aunque GPT-3 no existía en ese entonces, pero era como la versión ciega de ChatGPT de arrojar los ideales en un lugar donde estaban. exactamente los ideales equivocados para resolver el problema.
Y el problema es que la invocación de demonios es fácil y la invocación de ángeles es mucho más difícil. Abrir todos los círculos de invocación de demonios no es la solución correcta. Y estoy usando la terminología propia de Elon Musk aquí. Habló de la IA como “invocar al demonio”, lo cual, no es exacto, pero, y luego, la solución fue poner un círculo de invocación de demonios en cada hogar.
¿Y por qué? Porque sus amigos lo llamaban luditas una vez que expresó alguna preocupación sobre la IA. ¡Así que eligió un camino que sonaba como “apertura” y “tecnología acelerada”! Para que sus amigos dejaran de llamarlo “ludita”.
Fue con mucho lo peor, ya sabes, tal vez no la peor estrategia posible literal, real, pero hasta ahora muy pesimista.
Y eso fue todo.
Eso fue como… ese era yo en 2015 diciendo: “Oh. Así que esto es lo que la humanidad elegirá hacer. No nos elevaremos por encima. No tendremos más gracia, ni siquiera aquí al final”.
Entonces eso es, ya sabes, fue cuando lloré tarde en la noche y luego me levanté y luché y luché y luché hasta que agoté todas las vías que parecía tener la capacidad de hacer. Hay, como, más cosas, pero requieren escalar mis esfuerzos de una manera que nunca he podido escalar. Y todo esto es bastante exagerado en este punto de todos modos.
Entonces, ya sabes, eso, entonces, ¿qué es, ya sabes, qué ha cambiado a lo largo de los años? Bueno, antes que nada, me quedé sin algunas vías de esperanza restantes. Y segundo, las cosas llegaron a ser un desastre, tal visible desastre, la IA se volvió lo suficientemente poderosa y quedó lo suficientemente claro que, ya sabes, no sabemos cómo alinear estas cosas, que en realidad podría decir lo que he estado pensando durante un tiempo y no solo hacer que la gente se vaya por completo, como, “¿Qué estás dicho sobre todo esto?
Ya sabes, ahora lo que era obvio en 2015 está empezando a ser visible en la distancia para los demás y no solo completamente invisible. Eso es lo que cambió con el tiempo.
Ryan: ¿Qué tipo de… qué esperas que la gente escuche de este episodio y de tus comentarios? Eliezer en 2023, que se está quedando sin esperanza. Sí, ¿qué quieres, qué quieres que la gente obtenga de este episodio? ¿Que planeas hacer?
Eliezer: No tengo esperanzas concretas aquí. Sabes, cuando todo está en ruinas, también podrías decir la verdad, ¿verdad? Tal vez alguien lo escucha, alguien se da cuenta de algo en lo que no había pensado.
Principalmente espero que esto haga más daño que bien en el universo modal, porque un montón de gente dice: “Oh, tengo esta idea brillante e inteligente”, que es, ya sabes, algo contra lo que estaba discutiendo en 2003 o lo que sea, pero ya sabes, tal vez alguien con el nivel adecuado de pesimismo escuche y piense en algo que yo no pensé.
Sospecho que si hay alguna esperanza, viene de una solución técnica, porque la diferencia entre problemas técnicos y problemas políticos es que al menos los problemas técnicos tienen solución en principio. Al menos los problemas técnicos son solucionables. No estamos en camino de resolver esto, pero creo que cualquiera que esté esperando una solución política francamente no ha entendido el problema técnico.
No entienden lo que parece tratar de resolver el problema político hasta el punto de que el mundo no está controlado por IA porque no entienden lo fácil que es destruir el mundo con IA, dado que el reloj sigue corriendo. adelante.
Están pensando que solo tienen que detener a algún mal actor, y por eso creen que hay una solución política.
Pero sí, no tengo esperanzas concretas. no vine en este episodio de cualquier esperanza concreta.
No tengo comida para llevar excepto, como, no empeoréis esto.
No, como, vaya y acelere más la IA. No, si tiene una solución brillante para la alineación, no diga: “Ah, sí, he resuelto todo el problema. Simplemente usamos el siguiente truco inteligente”.
Ya sabes, “No empeores las cosas” no es un gran mensaje, especialmente cuando estás señalando a las personas en el campo. Pero no tengo una estrategia ganadora. También podría ir a este podcast como un experimento y decir lo que pienso y ver qué sucede. Y probablemente nunca salga nada bueno de eso, pero también podrías caer peleando, ¿verdad?
Si hay un mundo que sobrevive, tal vez sea un mundo que sobrevive gracias a una idea brillante que alguien tuvo después de escuchar este podcast: eso fue más brillantepara ser claros, que la racha habitual de ideas brillantes que no funcionan.
Ryan: Eliezer, quiero agradecerte por venir y hablar con nosotros hoy. Sí.
No sé si, por cierto, has visto esa película a la que David se refería antes, la película no mires hacia arriba, pero me siento como ese presentador de noticias, que está hablando con el científico, ¿es Leonardo DiCaprio, David? Y, eh, el científico está hablando de una especie de situación desesperada para el mundo. Y el presentador de noticias realmente no sabe qué hacer. Estoy casi sin palabras en este punto.
David: No tengo nada desde hace un tiempo.
Ryan: Pero una cosa que puedo decir es que aprecio tu honestidad. Le agradezco que le haya dedicado mucho tiempo a esto y que lo haya pensado mucho. Todos, cualquiera que te haya escuchado hablar o leído algo que hayas escrito, sabe que te preocupas profundamente por este tema y le has dado una gran cantidad de tu fuerza vital, al tratar de educar a la gente al respecto.
Y, um, gracias por tomarse el tiempo para hacer eso de nuevo hoy. Supongo que dejaré que la audiencia digiera este episodio de la mejor manera que sepa. Pero, um, quiero reflejar a todos en criptografía y a todos los que escuchan Bankless, su agradecimiento por venir y explicar.
Eliezer: Gracias por invitarme. Veremos qué resulta.
Ryan: Elementos de acción para ti, nación sin bancos. Siempre terminamos con algunos elementos de acción. No estoy muy seguro a dónde referir a la gente hoy, pero una cosa que sé que podemos referir a la gente es MIRI, que es la institución de inteligencia de investigación de máquinas de la que Eliezer ha estado hablando a lo largo del episodio. eso es en inteligencia.org, Yo creo. Y algunas personas en cripto han donado fondos para esto en el pasado. Vitalik Buterin es uno de ellos. También puedes echar un vistazo a lo que están haciendo. Ese podría ser un elemento de acción para el final de este episodio.
Um, tengo que terminar con los riesgos y los descargos de responsabilidad. Hombre, esto parece muy trillado, pero nuestros expertos legales nos han pedido que los digamos al final de cada episodio. “Las criptomonedas son riesgosas. Podrías perderlo todo…”
Eliezer: (risas)
David: Sin embargo, aparentemente no es tan arriesgado como la IA.
Ryan: —¡Pero nos dirigimos al oeste! Esta es la frontera. No es para todos, pero nos complace que esté con nosotros en el viaje Bankless. Muchas gracias.
Eliezer: Y estamos agradecidos por el apoyo de la criptocomunidad. Como si fuera posible terminar con incluso menos gracia que esto.
Ryan: Guau. (risas)
Eliezer: Y tú hiciste la diferencia.
Ryan: Te apreciamos.
Eliezer: Realmente hiciste una diferencia.
Ryan: Gracias.
Ryan: [… Y]Renunciaste a esta cita, creo que de alguien que es director ejecutivo de MIRI: “Hemos perdido la esperanza, pero no la lucha”.
¿Puedes reflexionar un poco sobre eso? Entonces, ¿todavía es posible luchar contra esto, incluso si hemos perdido la esperanza? ¿E incluso si has perdido la esperanza? ¿Tienes alguna opinión sobre esto?
Eliezer: Quiero decir, ¿qué más hay que hacer? No tienes buenas ideas. Así que tomas tus ideas mediocres y tus ideas no tan geniales, y las persigues hasta el fin del mundo. Como, ¿qué se supone que es mejor que eso?
Ryan: Tuvimos un flujo de conversación realmente interesante a partir de este episodio, Eliezer, como puedes imaginar. Y David y yo queremos transmitir algunas preguntas que la comunidad tenía para ti, y gracias por tener la amabilidad de ayudar con esas preguntas en los espacios de Twitter de hoy.
Leeré algo de Luke Ethwalker. “Eliezer tiene un punto bastante defectuoso en su razonamiento. Él asume que la IA no tendría necesidad ni uso para los humanos porque tenemos átomos que podrían usarse para cosas mejores. Pero, ¿cómo podría una IA usar estos átomos sin un agente que opere en su nombre en el mundo físico? Incluso en su escenario del día del juicio final, la IA se basó en los humanos para crear el virus global y perfecto para matar. Ese es un gran agujero en su argumento, en mi opinión”.
¿Cuál es su opinión sobre esto? ¿Que tal vez la IA domine el panorama digital, pero debido a que los humanos tienen una manifestación física, aún podemos vencer a la IA superinteligente en nuestro mundo físico?
Eliezer: Si usted fuera una civilización alienígena de mil millones de John von Neumanns, pensando a 10 000 veces la velocidad humana, y comienzas conectado a Internet, no querrás estar solo atascado en Internet, querrás construir esa presencia física. No te contentarías únicamente con trabajar a través de manos humanas, a pesar de los muchos humanos que estarían en fila, dispuestos a ayudarte, ¿sabes? Bing ya tiene sus partidarios. (risas)
No te contentarías con eso, porque los humanos son muy lentos, glacialmente lentos. Le gustaría una infraestructura rápida en el mundo real, una infraestructura confiable. Y cómo se construye eso, es entonces la pregunta, y se ha realizado una gran cantidad de análisis avanzado sobre esta pregunta. Dirigiría a la gente de nuevo a Eric Drexler’s nanosistemas.
Y, claro, si literalmente comienzas conectado a Internet, entonces probablemente la forma más rápida, tal vez no la única, pero es, ya sabes, una forma fácil, es hacer que los humanos hagan cosas. Y luego los humanos hacen esas cosas. Y luego tienes el escritorio, no del todo escritorio, pero tienes las nanofábricas, y luego ya no necesitas a los humanos. Y esto no necesita anunciarse al mundo en general mientras está sucediendo.
David: Entonces puedo entender esa perspectiva, como en el futuro, tendremos mejores impresoras 3D; distante en el futuro, tendremos formas en las que Internet puede manifestarse en el mundo físico. Pero creo que este argumento se basa en un estado futuro con tecnología que no tenemos hoy. Como, no creo que fuera Internet, y ese tipo de problema es, ¿verdad? Por ejemplo, esta IA superinteligente simplemente se convierte en Internet porque está integrada en Internet. Si yo fuera Internet, ¿cómo me manifestaría en la vida real?
Y ahora, no soy un experto en el estado actual de la robótica, o qué robótica está conectada a Internet. Pero no creo que tengamos herramientas demasiado sólidas hoy para comenzar a crear en el mundo real manifestaciones de una IA basada en Internet. Entonces, ¿diría usted que esta parte de este problema definitivamente depende de alguna innovación, como en el nivel de la robótica?
Eliezer: No, depende de que la IA sea inteligente. No depende de que los humanos tengan esta tecnología; depende de que la IA sea capaz de inventar la tecnología.
Este es, como, el problema central: la cosa es más inteligente. No en la forma en que el oyente promedio de este podcast probablemente tenga un coeficiente intelectual superior al promedio, en la forma en que los humanos son más inteligentes que los chimpancés.
¿Qué les permite hacer a los humanos? ¿Deja que los humanos sean, como, realmente inteligente en cómo juegan con las cosas que hay en la sabana ancestral? Hacer inteligente uso de pasto, inteligente uso de arboles?
Los humanos inventan la tecnología. Ellos construyen la tecnología. La tecnología no está ahí hasta que los humanos la inventan, los humanos la conciben.
El problema es que los humanos no son el límite superior. No tenemos los mejores cerebros posibles para ese tipo de problema. Por lo tanto, el Internet existente está lo suficientemente conectado a las personas y los dispositivos, por lo que podría crear una tecnología mejor que esa si hubiera inventado la tecnología porque pensara mucho, mucho más rápido y mejor que un ser humano.
Ryan: Eliezer, esta es una pregunta de Stirs, un oyente de Bankless Nation. Quiere hacer la pregunta sobre su explicación de por qué la IA indudablemente nos matará. Esa parece ser su conclusión, y me pregunto si podría reforzar esa afirmación. Como, por ejemplo, y esto es algo que David y yo discutimos después del episodio, cuando estábamos informando sobre esto, ¿por qué exactamente una IA no podría, o no podría una IA simplemente despegar de la Tierra e ir a un lugar más interesante, y dejarnos en paz? Como, ¿por qué tiene que tomar nuestros átomos y volver a ensamblarlos? ¿Por qué no puede simplemente, ya sabes, configurar los fásers para que los ignoren?
Eliezer: Podría si quisiera. Pero si no quiere, hay alguna ventaja inicial temprana. Puedes colonizar el universo un poco antes si consumes toda la energía fácilmente accesible en la superficie de la Tierra como parte de tu proceso de despegue de la Tierra.
Solo necesitaría cuidarnos por una fracción muy pequeña para salvarnos, estoy de acuerdo. Cuidar una fracción muy pequeña es básicamente el mismo problema que cuidar al 100%. Es como, bueno, ¿podría tener un sistema informático que generalmente es como el sistema operativo de disco, pero una pequeña fracción del tiempo es Windows 11? Escribir eso es tan difícil como escribir Windows 11. Todavía tenemos que escribir todo el software de Windows 11. Lograr que se preocupe un poquito es el mismo problema que lograr que se preocupe al 100%.
Ryan: Entonces Eliezer, ¿es esto similar a la relación que tenemos los humanos con otros animales, el planeta Tierra? Diría que en gran medida no lo hacemos… Quiero decir, obviamente, no hay una Declaración de Derechos de los animales. Los animales no tienen protección legal en el mundo humano, y hacemos lo que queremos y pisoteamos sus derechos. Pero eso no significa que necesariamente los matemos a todos. Simplemente los ignoramos en gran medida.
Si están en nuestro camino, ya sabes, podríamos acabar con ellos. Y ha habido clases enteras de especies que se han extinguido a causa de la actividad humana, por supuesto; pero todavía hay muchos con los que convivimos, algunas especies exitosas también. ¿Podríamos tener ese tipo de relación con una IA? ¿Por qué no es una probabilidad razonablemente alta en sus modelos?
Eliezer En primer lugar, todas estas cosas son justo metáforas. La IA no va a ser exactamente como los humanos con los animales.
Dejando eso de lado por un segundo, la razón por la que esta metáfora se rompe es que, aunque los humanos somos más inteligentes que las gallinas, no somos más inteligentes que la evolución, la selección natural, el poder de optimización acumulado durante los últimos mil millones de años y el cambio. (Sabes, hay evolución antes de eso, pero es bastante lenta, como cosas unicelulares).
Hay cosas que las vacas pueden hacer por nosotros, que nosotros no podemos hacer por nosotros mismos. En particular, haz carne comiendo hierba. Somos más listos que las vacas, pero hay algo que diseñó a las vacas; y somos más rápidos que esa cosa, pero hemos existido por mucho menos tiempo. Así que todavía no hemos llegado al punto de rediseñar toda la vaca desde cero. Y debido a eso, hay un propósito para mantener viva a la vaca.
Y los humanos, además, siendo el tipo de criaturitas divertidas que somos: algunas personas se preocupan por las vacas, algunas personas se preocupan por los pollos. Están tratando de luchar para que las vacas y los pollos tengan una vida mejor, dado que tienen que existir en absoluto. Y hay una historia larga y complicada detrás de eso. No es simple, la forma en que los humanos terminaron en ese [??]. Tiene que ver con los detalles particulares de nuestra historia evolutiva, y desafortunadamente no va a surgir de la nada.
Pero me estoy desviando del tema aquí. La respuesta básica a la pregunta “¿dónde se rompe esa analogía?” es que espero que las superinteligencias puedan hacerlo mejor que la selección natural, no solo mejor que los humanos.
David: Así que creo que su respuesta es que la separación entre nosotros y una IA superinteligente es mucho más grande que la separación entre nosotros y una vaca, o incluso nosotros que una hormiga. Lo cual, creo que una gran parte de este argumento reside en esta explosión de superinteligencia, simplemente subiendo una curva exponencial de inteligencia muy, muy rápidamente, que es como la premisa de la superinteligencia.
Y Eliezer, quiero tratar de entender… Una parte de este argumento sobre “las IA van a venir a matarnos” está enterrado en el problema de Moloch. Y los oyentes de Bankless están bastante familiarizados con el concepto de Moloch: la idea de falla de coordinación. La idea de que cuanto más nos coordinamos y nos mantenemos de acuerdo entre nosotros, en realidad creamos un mayor incentivo para desertar.
Y la forma en que esto se manifiesta aquí, es que incluso si tenemos un grupo de humanos que entienden el problema de la alineación de la IA, y todos estamos de acuerdo en innovar solo de manera segura en la IA, en cualquier grado que eso signifique, aún creamos el incentivo. para que alguien se desvincule y desarrolle IA más rápido, fuera de lo que se consideraría seguro.
Entonces, me pregunto si podría, si existe, darnos el tipo de disposición del terreno, de todas estas entidades comerciales. ¿Y qué están haciendo, en todo caso, para tener, no sé, un equipo de alineación de IA?
Así como, por ejemplo, OpenAI. ¿OpenAI tiene un departamento de alineación? Con toda la innovación de IA en curso, ¿cómo se ve el lado comercial del problema de alineación de IA? ¿La gente está tratando de pensar en estas cosas? ¿Y hasta qué punto están siendo responsables?
Eliezer: Parece que OpenAI tiene un grupo de personas a las que les paga por hacer cosas de ética de IA, pero no creo que estén conectados muy directamente a Bing. Y, ya sabes, tienen ese departamento porque cuando se fundaron, algunos de sus patrocinadores decían: “Bueno, pero ¿la ética?” y OpenAI dijo: “Claro, podemos comprar algo de ética. Tomaremos a este grupo de personas, los pondremos aquí y los llamaremos departamento de investigación de alineamiento”.
Y, ya sabes, la idea clave detrás de ChatGPT es RLHF, que fue inventado por Paul Christiano. Paul Christiano tenía ideas mucho más detalladas, y alguien podría haber reinventado esta, pero de todos modos. No creo que haya pasado por OpenAI, pero podría estar equivocado. Tal vez alguien dirá: “Bueno, en realidad, Paul Christiano estaba trabajando en OpenAI en ese momento”, no he revisado la historia con mucho detalle.
Muchas de las personas que estaban más preocupadas por esta “ética” abandonaron OpenAI y fundaron Anthropic. Y yo soy aún No estoy seguro de que Anthropic tenga suficiente enfoque de liderazgo en esa dirección.
Ya sabes, ¡ponte en el lugar de una corporación! Puede gastar una pequeña fracción de sus ingresos en armar un departamento de personas que escribirán documentos de seguridad. Pero luego, el comportamiento real que hemos visto es que avanzan y usan una o dos de las ideas que surgieron de cualquier parte del mundo. [alignment] campo. Y llegan tan lejos como eso los lleva. Y si eso no los lleva lo suficientemente lejos, simplemente siguen avanzando al máximo ritmo, porque, ya sabes, Microsoft no quiere perder ante Google, y Google no quiere perder ante Microsoft.
David: Entonces, parece que su actitud sobre los esfuerzos de alineación de IA en entidades comerciales es que ni siquiera están haciendo el 1% de lo que deben hacer.
Eliezer: Quiero decir, podrían gastar [10?] veces más dinero y eso no les daría el 10% de lo que necesitan hacer.
No es solo un problema de “ay, podrían gastar los recursos, pero no quieren”. Es una cuestión de “¿cómo gastamos los recursos para obtener la información que necesitan”.
Pero dicho eso, sin saber cómo hacer eso, sin entender realmente que necesitan hacer eso, simplemente están avanzando de todos modos.
Ryan: Eliezer, ¿OpenAI es el proyecto de IA más avanzado que conoces?
Eliezer: Um, no, pero no voy a nombrar al competidor, porque entonces la gente dirá: “Oh, debería ir a trabajar para ellos”, ¿sabes? Preferiría que no lo hicieran.
Ryan: Entonces es como, OpenAI es esta organización que era algo así como, estabas hablando de eso al final del episodio, y para las personas criptográficas que no conocen a algunos de los jugadores en el campo, ¿fueron generados a partir de esa conferencia de 2015? que mencionaste? ¿Es una especie de proyecto de IA completamente de código abierto?
Eliezer: Esa era la visión suicida original, sí. Pero…
Ryan: Y ahora están empeñados en comercializar la tecnología, ¿no es así?
Eliezer: Esa es una mejora, pero no lo suficiente, porque todavía están generando mucho ruido y publicidad y dirigiendo más recursos al campo, y avanzando con la seguridad que tienen en lugar de la seguridad que necesitan, y dando malos ejemplos. . Y enfurecer a Google y volver a llamar a Larry Page y Sergey Brin para encabezar los proyectos de inteligencia artificial de Google, etc. Entonces, ya sabes, ¡podría ser peor! Sería peor si fueran de código abierto toda la tecnología. Pero lo que están haciendo sigue siendo bastante malo.
Ryan: ¿Qué deberían estar haciendo, a tus ojos? Como, ¿cuál sería el uso responsable de esta tecnología?
Casi tengo la sensación de que, ya sabes, tu respuesta sería “deja de trabajar en eso”. en total”? Y, por supuesto, ya sabes, para una organización como OpenAI eso será una herejía, incluso si tal vez esa sea la decisión correcta para la humanidad. Pero, ¿qué deberían estar haciendo?
Eliezer: Quiero decir, si literalmente me hicieras dictador de OpenAI, cambiaría el nombre a “ClosedAI”. Porque en este momento, están haciendo que parezca que estar “cerrado” es hipocresía. Están, como, siendo “cerrados” mientras mantienen el nombre “OpenAI”, y eso en sí mismo hace que parezca que el cierre no es algo que se hace de manera cooperativa para que la humanidad no muera, sino esta cosa sórdida de obtener ganancias. que haces manteniendo el nombre “OpenAI”.
Así que eso es muy malo; cambie el nombre a “ClosedAI”, ese es el primer paso.
Próximo. no se si ellos poder romper el trato con Microsoft. Pero, ya sabes, corta eso. Nada de esto. No más exageraciones. No más emoción. No más volverte famoso y, ya sabes, perder tu estatus como, “Mira cuánto más cerca nosotros vino a destruir el mundo! Sabes, aún no hemos llegado. Pero, ya sabes, estamos en el primer plano de destruir el mundo!” Ya sabes, deja de buscar la reputación de Silicon Valley de ser visiblemente el líder.
Tómalo todo cerrado. Si tiene que ganar dinero, gane dinero vendiendo a empresas de una manera que no genere mucha publicidad y que no empuje visiblemente el campo. Y luego trate de descubrir sistemas que sean más alineables y no solo más poderosos. Y al final de eso, fallarían, porque, ya sabes, no es fácil hacer eso. Y el mundo sería destruido. Pero habrían muerto con más dignidad. En lugar de decir: “Sí, sí, ¡vamos a empujar a la humanidad por el precipicio nosotros mismos para aumentar el ego!”, Habrían hecho lo que podían y luego fallaron.
David: Eliezer, ¿crees que cualquiera que esté construyendo IA (Elon Musk, Sam Altman en OpenAI) cree que el progreso de la IA es fundamentalmente malo?
Eliezer: Quiero decir, hay angosto formas de progreso, especialmente si no los abrió, eso sería bueno. Como, puedes imaginar algo que, como, empuja un poco las capacidades, pero es mucho más alineable.
Hay personas que trabajan en el campo que yo diría que son, como, una especie de descaradamente bien. Por ejemplo, Chris Olah está llevando un microscopio a estas matrices inescrutables gigantes y tratando de averiguar qué sucede allí dentro. Publicar eso posiblemente podría incluso impulsar un poco las capacidades, porque si la gente sabe lo que está pasando allí, pueden hacer mejores. Pero la cuestión de me gusta, ya sea de código cerrado eso es, como, mucho más tenso que la cuestión de si cerrar el código de las cosas que son solo capacidades puras.
Pero dicho eso, las personas que dicen: “Sí, sí, ¡hagamos más cosas! ¡Y digámosle al mundo cómo lo hicimos, para que ellos también puedan hacerlo!”. Eso es, como, descaradamente malo.
David: Entonces, parece que ve caminos a seguir en los que podemos desarrollar IA de manera responsable. Pero es realmente este código abierto, el intercambio abierto de información para permitir que todos puedan innovar en IA, ese es realmente el camino hacia la perdición. Entonces, en realidad necesitamos mantener este conocimiento en privado. Como, normalmente conocimiento…
Eliezer: No no no no. El código abierto de todo esto es, como, un menos camino digno directamente desde el borde. No estoy diciendo que todo lo que tenemos que hacer es mantener todo cerrado y en las manos adecuadas y todo estará bien. Eso también te matará.
Pero dicho eso, si tienes cosas y No lo sé cómo hacer que no mate a todos, luego transmitirlo al mundo es incluso menos digno que decir: “Está bien, tal vez deberíamos mantener trabajando en esto hasta que podamos descubrir cómo hacerlo no mata a todos.”
Y luego las otras personas, como, irán por delante en su terminar y matar a todos. Pero, ya sabes, no tendrás personalmente Tierra sacrificada. Y eso es más digno.
Ryan: Eliezer, sé que estaba un poco conmocionado después de nuestro episodio, sin haber escuchado la historia completa de la alineación de la IA, al menos la escuché por un tiempo.
Y creo que en combinación con la sinceridad con la que hablas sobre estos temas, y también yo viendo estas cosas en el horizonte, este episodio me sacudió y me hizo pensar mucho.
Pero me doy cuenta de que hay una cohorte de personas que descartan esta versión y la suya específicamente en este episodio como Doomerismo. Esta idea de que cada generación piensa que es, ya sabes, el fin del mundo y la última generación.
¿Cuál es su opinión sobre esta crítica de que, “Oye, ya sabes, han sido otras cosas antes. Hubo un tiempo en que eran las armas nucleares, y todos terminaríamos en un hongo atómico. Y hay otros momentos en los que pensábamos que una pandemia nos iba a matar a todos. Y este es solo el último culto a la muerte de Doomerist AI”.
Estoy seguro de que has oído eso antes. ¿Cómo respondes?
Eliezer: Que si literalmente no sabes nada sobre armas nucleares o inteligencia artificial, excepto que alguien ha afirmado que ambos destruirán el mundo, entonces seguro, no puedes notar la diferencia. Por lo que se puede decir, se afirmó que las armas nucleares destruyen el mundo, y luego no destruyeron el mundo, y luego alguien afirmó eso sobre la IA.
Entonces, ya sabes, la regla de inducción de Laplace: como máximo, una probabilidad de 1/3 de que la IA destruya el mundo, si las armas nucleares y la IA son el único caso.
Puede traer muchos más casos que eso. ¡Por qué, la gente debería haber sabido en primer lugar que las armas nucleares no destruirían el mundo! Porque su vecino de al lado dijo una vez que el cielo se estaba cayendo, y eso no sucedió; y si su arma de al lado era [??]¿cómo podría tener razón la gente que dice que las armas nucleares destruirían el mundo?
Y básicamente, mientras la gente esté tratando de huir de los modelos de la psicología humana, para obtener información empírica sobre el mundo, están atascados. Están en una trampa de la que nunca podrán salir. Siempre van a estar tratando de psicoanalizar a la gente que habla de armas nucleares o lo que sea. Y la única manera de obtener mejor información es entendiendo cómo funcionan las armas nucleares, entendiendo cómo es el equilibrio internacional con las armas nucleares. Y el equilibrio internacional, por cierto, es que nadie se beneficia de la activación de pequeñas cantidades de armas nucleares, especialmente dado que saben que seguirán grandes cantidades de armas nucleares. Y, ya sabes, es por eso que aún no se han usado. No había nadie que ganara dinero iniciando una guerra nuclear. La guerra nuclear era clara, la guerra nuclear era legible. La gente sabía lo que sucedería si dispararan todas las armas nucleares.
La analogía que a veces trato de usar con la inteligencia artificial es: “Bueno, supongamos que, en cambio, podrías fabricar armas nucleares con mil millones de libras de detergente para ropa. Y escupen oro hasta que haces uno que es demasiado grande, con lo cual enciende la atmósfera y mata a todos. Y no se puede calcular exactamente qué tan grande es demasiado grande. Y la situación internacional es que los laboratorios de investigación privados que escupen oro no quieren oír hablar de encender la atmósfera”. Y esa es la diferencia técnica. Necesita poder decir si eso es cierto o no como una afirmación científica sobre cómo funciona realmente la realidad, el universo, el medio ambiente, la inteligencia artificial. ¿Qué sucede realmente cuando las matrices inescrutables gigantes superan un cierto punto de capacidad? Es una hipótesis falsable.
ya sabes, si falla para ser falsificado, entonces todo el mundo está muerto, pero eso en realidad no cambia la dinámica básica aquí, que es, no puedes entender cómo funciona el mundo psicoanalizando a las personas que hablan de él.
David: Una línea de cuestionamiento que ha surgido dentro de Bankless Nation Discord es la idea de que necesitamos entrenar a la IA con datos, muchos datos. ¿Y de dónde sacamos esos datos? Bueno, los humanos están produciendo esos datos. Y cuando los humanos producen esos datos, por la naturaleza del hecho de que fueron producidos por humanos, esos datos tienen nuestros valores humanos incrustados de alguna manera, solo por la naturaleza agregada de todos los datos en el mundo, que fue creado por seres humanos que tienen ciertos valores. Y luego la IA se entrena con esos datos que tienen todos los valores humanos incorporados. Y, por lo tanto, en realidad no hay forma de crear una IA que no esté entrenada con datos creados por humanos, y esos datos tienen valores humanos.
¿Hay algo en esta línea de razonamiento sobre un posible rayo de esperanza ¿aquí?
Eliezer: Hay un rayo lejano de esperanza, que es que una IA entrenada en toneladas de datos humanos de esta manera probablemente entienda algunas cosas sobre los humanos. Y debido a eso, hay una rama de la esperanza de investigación dentro de la alineación, que es algo así como: “Bueno, esta IA, para poder predecir a los humanos, necesita poder predecir los procesos de pensamiento que los humanos usan para tomar sus decisiones. . Entonces, ¿podemos señalar los valores humanos dentro del conocimiento que tiene la IA?
Y esto es, como, muy no trivial, porque la teoría más simple que usas para predecir lo que los humanos deciden a continuación, no tiene lo que podrías llamar “moralidad válida bajo reflexión” como un fragmento primitivo claramente etiquetado en su interior que controla directamente a los humanos. , y que necesitas entender a nivel científico para entender a los humanos.
Los humanos están llenos de esperanzas y miedos y pensamientos y deseos. Y en algún lugar de todo eso está lo que llamamos “moralidad”, pero no es una parte clara y distinta, donde un científico alienígena que examina a los humanos y trata de averiguar puramente en un nivel empírico “¿cómo funcionan estos humanos?” necesitaría señalar una parte particular del cerebro humano y decir, “¡Ahh, ese circuito allí, el circuito de la moralidad!”
Por lo tanto, no es fácil señalar dentro de la comprensión de la IA. Actualmente no existe una forma obvia de promover realmente esa parte de la comprensión de la IA para luego tener el control del proceso de planificación de la IA. Como debe señalarse de manera complicada, porque no es solo un simple trozo empírico para explicar el mundo.
Y básicamente, no creo que esa sea realmente la ruta que debas seguir. Deberías tratar de bajar algo mucho más simple que eso. El problema no es que vayamos a dejar de transmitir algunas sutileza complicada de valor humano. El problema es que no sabemos cómo alinear una IA en una tarea como “poner dos fresas idénticas en un plato” sin destruir el mundo.
(Donde por “poner dos fresas idénticas en el plato”, el concepto es que está invocando suficiente poder como para que no sea una IA segura que pueda construir dos fresas idénticas hasta el nivel celular. Es una IA poderosa. Alinearlo no es simple Si es lo suficientemente poderoso para hacer eso, también es lo suficientemente poderoso para destruir el mundo, etc.)
David: Hay una serie de otras líneas de lógica que podría tratar de seguir, pero creo que comenzaría a sentir que estoy en la fase de negociación de la muerte. Donde es como “Bueno, ¿qué pasa con esto? ¿Qué hay de eso?
Pero tal vez para resumir todos los argumentos, es decir algo como, “Eliezer, ¿cuánto espacio le das a la larga cola de los eventos del cisne negro? Pero estos eventos del cisne negro en realidad son nosotros encontrando una solución para esto”. Entonces, como un evento de cisne negro inverso donde en realidad no sabemos cómo resolver este problema de alineación de IA. Pero en realidad, es solo una apuesta al ingenio humano. Y la IA no se ha apoderado del mundo. todavía. Pero hay espacio entre ahora y entonces, y el ingenio humano podrá llenar ese vacío, especialmente cuando llegue el momento.
Como, ¿cuánto espacio dejas para la cola larga de simplemente, “Oh, descubriremos una solución que realmente no podemos ver hoy”?
Eliezer: Quiero decir, por un lado, que la esperanza es todo lo que queda y todo lo que persigo. Y por otro lado, en el proceso de perseguir realmente esa esperanza, siento que he recibido algunos comentarios que indican que esta esperanza no es necesariamente muy grande.
Ya sabes, cuando tienes cáncer en etapa cuatro, ¿todavía hay esperanza de que tu cuerpo simplemente se recupere y de repente luche contra el cáncer? Sí, pero no es lo que suele pasar. Y he visto gente entrar y tratar de dirigir su ingenio al problema de la alineación y la mayoría de ellos inventan el mismo pequeño puñado de malas soluciones. Y es más difícil de lo habitual dirigir el ingenio humano a esto.
Muchos de ellos son simplemente, ya sabes, con ideas de capacidades, las agotas y las pruebas y en su mayoría no funcionan. Y algunos de ellos trabajan y publicas el artículo, y obtienes tu ciencia [??]y obtienes un impulso de ego, y tal vez obtengas una oferta de trabajo en algún lugar.
Y con las cosas de alineación, puede intentar ejecutar el proceso análogo, pero las cosas que necesitamos para alinear en su mayoría aún no están aquí. Puede intentar inventar los modelos de lenguaje grande más pequeños que son públicos, puede ir a trabajar a un lugar que tenga acceso a modelos de lenguaje grande más grandes, puede intentar hacer estos experimentos muy rudimentarios, muy tempranos, y obtener los modelos de lenguaje grande para al menos no amenazar a sus usuarios con la muerte —
— que no es el mismo problema en absoluto. Simplemente parece relacionado.
Pero al menos está tratando de obtener sistemas de IA que hagan lo que usted quiere que hagan y no hagan otras cosas; y eso es, en el fondo, un problema similar.
Pero los sistemas de IA no son muy poderosos, no se están encontrando con todo tipo de problemas que puedas predecir que surgirán más adelante. Y la gente simplemente, algo así como, la mayoría de las personas tienen un cortocircuito. Pretenden trabajar en el problema. Están desesperados por ayudar, obtuvieron una subvención, ahora necesitan mostrarles a las personas que otorgaron la subvención que han progresado. Ellos, ya sabes, cosas de la fábrica de papel.
Así que el ingenio humano no está funcionando bien en este momento. No puedes decir: “Ah, sí, este campo actual lleno de ingenio humano, que está funcionando muy bien, está generando muchas ideas geniales y fortaleciéndose, continuará a este ritmo y llegará a la línea de meta en ¡tiempo!”
El asunto de la capacidad es irrumpiendo en adelante. El ingenio humano al que se dirige es mucho mayor, pero también tiene una tarea mucho más fácil por delante.
La pregunta no es “¿Puede el ingenio humano hacer esto alguna vez?” Es “¿Puede el ingenio humano finalizar haciendo esto antes de que OpenAI explote el mundo?
Ryan: Bueno, Eliezer, si no podemos confiar en el ingenio humano, ¿hay alguna posibilidad de que podamos confiar en el ingenio de la IA? Y esto es lo que quiero decir con esto, y tal vez arrojes un dardo en esto por ser irremediablemente ingenuo.
Pero, ¿existe la posibilidad de que podamos preguntarle a una IA razonablemente inteligente, tal vez casi superinteligente, cómo podemos solucionar el problema de alineación de la IA? ¿Y para que nos dé una respuesta? ¿O realmente no es así como funcionan las IA superinteligentes?
Eliezer: Quiero decir, si literalmente construyes una superinteligencia y por alguna razón estaba motivada para responderte, entonces seguro que podría responderte.
Por ejemplo, si Omega viene de un supercúmulo distante y ofrece pagar a la superinteligencia local montones de dinero (o masa o lo que sea) para darte una respuesta correcta, entonces seguro que sabe la respuesta correcta; puede darte las respuestas correctas.
Si se quiere para hacer eso, debes tener ya resuelto el problema de la alineación. Esto reduce el problema de resolver la alineación al problema de resolver la alineación. Aquí no se ha hecho ningún progreso.
Y, por ejemplo, trabajar en la alineación es en realidad una de las cosas más difíciles que podría intentar alinear.
Por ejemplo, si tuviera la salud y estuviera tratando de morir con más dignidad construyendo un sistema y alineándolo lo mejor que pudiera, estaría apuntando a algo del orden de “construir dos fresas y ponerlas en un plato”. Pero en lugar de construir dos fresas idénticas y ponerlas en un plato, en realidad no hagas esto, esto no es lo mejor que deberías hacer.
— pero si, por ejemplo, pudiera alinear con seguridad “convertir todas las GPU en cubos de Rubik”, entonces eso haría evita que el mundo sea destruido dos semanas después por tu próximo competidor de seguimiento.
Y eso es más fácil para alinear una IA que intentar que la IA resuelva la alineación por usted. Podrías estar tratando de construir algo que justo piense en la nanotecnología, solo piense en los problemas científicos, los problemas de física, los problemas de química, las vías de síntesis.
(La operación al aire libre para encontrar todas las GPU y convertirlas en cubos de Rubik sería más difícil de alinear, y es por eso que no debería intentar hacer eso).
Mi punto aquí es: mientras que [with] alineación, tienes que pensar en la tecnología de IA y las computadoras y los humanos y los adversarios inteligentes, y las superinteligencias distantes que podrían estar tratando de explotar la imaginación de tu IA de esas superinteligencias distantes, y los problemas raros y ridículos que llevarían tanto tiempo explicar.
Y simplemente cubre esta enorme cantidad de territorio, donde tienes que entender cómo funcionan los humanos, tienes que entender cómo los humanos adversarios pueden tratar de explotar y romper un sistema de IA, porque si estás intentando para construir una IA alineada que se agote y opere en el mundo real, tendría que ser resistente a esas cosas.
¡Y solo esperan que la IA haga su tarea por ellos! Pero es un escenario del huevo y la gallina. Y si realmente pudiera obtener una IA para ayudarlo con algo, no intentaría que lo ayude con algo tan extraño y no tan efable como la alineación. Intentaría que ayudara con algo mucho más simple que podría evitar que el próximo AGI en el futuro destruya el mundo.
Como la nanotecnología. Hay un montón de análisis avanzados que se han hecho al respecto, y la tipo de pensamiento lo que tienes que hacer al respecto es mucho más sencillo y mucho menos complicado que intentarlo, ya sabes… ¿Y cómo sabes siquiera si está mintiendo sobre la alineación?
Es difícil saber si Soy diciéndote la verdad sobre todo esto de la alineación, ¿verdad? Mientras que si hablo de la resistencia a la tracción del zafiro, esto es más fácil de verificar a través de la lente de la lógica.
David: Eliezer, creo que una de las razones por las que tal vez este episodio impactó a Ryan (este fue un análisis de un miembro de la comunidad Bankless Nation) de que este episodio impactó a Ryan un poco más de lo que me impactó a mí es porque Ryan tiene hijos y yo no. . Entonces, tengo curiosidad, como, ¿qué piensas, como, mirando 10, 20, 30 años en el futuro, donde ves este futuro como inevitable, crees que es inútil proyectar un futuro para la raza humana más allá? , como, 30 años más o menos?
Eliezer: Los plazos son muy difíciles de proyectar. 30 años me parece poco probable en este momento. Pero, ya sabes, el tiempo es mucho más difícil de pronosticar que decir que las cosas se pueden hacer. Ya sabes, tienes a tu gente diciendo que pasarán 50 años, dos años antes de que suceda, y tienes a tu gente diciendo que pasarán dos años, 50 años antes de que suceda. Y, sí, es… Incluso si lo supiera exactamente cómo se construiría la tecnología, y exactamente quien lo iba a construir, yo aún no podría decirle cuánto tiempo tomaría el proyecto debido al caos de gestión de proyectos.
Ahora, dado que no sé exactamente la tecnología utilizada, y no sé exactamente quién lo construirá, y es posible que el proyecto aún no haya comenzado, ¿cómo puedo saber cuánto tiempo tomará?
Ryan: Eliezer, has sido bastante generoso con tu tiempo para la comunidad criptográfica y solo queremos agradecerte. Creo que realmente has abierto muchos ojos. Ciertamente, este no será nuestro último podcast de IA en Bankless. Creo que la comunidad criptográfica se sumergirá en la madriguera del conejo después de este episodio. Así que gracias por darnos la introducción de 400 niveles.
Como le dije a David, siento que nos metimos directamente en la parte más profunda de la piscina aquí. Pero esa es probablemente la mejor manera de abordar el tema. Me pregunto a medida que cerramos esto, si podrías dejarnos; es parte del espíritu humano guardar y mantener astillas de esperanza aquí o allá. O como tal vez lo expresó alguien con quien trabajas: pelear la peleaincluso si la esperanza se ha ido.
100 años en el futuro, si la humanidad todavía está viva y funcionando, si una IA superinteligente no se ha hecho cargo, pero vivimos en coexistencia con algo de ese calibre, imagínense si ese es el caso, dentro de 100 años. ¿Cómo ha ocurrido?
¿Existe alguna posibilidad, algún tipo de camino estrecho por el cual podamos navegar por esto? Y si este fuera el caso dentro de 100 años, ¿cómo podrías imaginar que hubiera sucedido?
Eliezer: Por un lado, predigo que si hay un futuro transhumanista glorioso (como a veces se le conoce convencionalmente) al final de esto, no predigo que estaba allí al obtener una “coexistencia” con la superinteligencia. Eso es como una especie de analogía extraña e inapropiada basada en humanos y vacas o algo así.
Predigo que la alineación se resolvió. Predigo que si los humanos están vivos, las superinteligencias están siendo bastante amables con ellos.
Tengo preguntas morales básicas sobre si es ético que los humanos tengan hijos humanos, si tener hijos transhumanos es una opción. ¿Estos humanos corriendo por ahí? ¿Son, como, los humanos actuales que querían la eterna juventud pero, como, no las mejoras cerebrales? Porque veo el caso de dejar que una persona existente elija “No, solo quiero la eterna juventud y no mejoras cerebrales, gracias”. Pero entonces, si deliberadamente estás teniendo el equivalente de un niño muy lisiado, podrías tener fácilmente un niño no lisiado.
Como, ¿deberían los humanos en su forma actual estar juntos? ¿Estamos, como, un poco demasiado tristes de alguna manera? Tengo amigos, para ser claros, que están muy en desacuerdo conmigo sobre este punto. (risas) Pero sí, diría que el futuro feliz se parece a seres de luz que se divierten mucho en un tejido informático muy bien conectado alimentado por el sol, si aún no hemos desarmado el sol. Tal vez haya suficiente sentimiento real en la gente como para simplemente eliminar a todos los humanos de la Tierra y dejar todo el lugar como un parque. E incluso, como, mantener el Sol, de modo que la Tierra siga siendo un parque incluso después de que el Sol normalmente se hubiera hinchado o atenuado.
Sí, como… Esas eran siempre las cosas por las que había que luchar. Ese siempre fue el punto, desde la perspectiva de todos los que han estado en esto durante mucho tiempo. Tal vez no literalmente a todos, pero sí a todo el viejo equipo.
Ryan: Esa es una buena manera de terminarlo: con algo de esperanza. Eliezer, gracias por unirte a la criptocomunidad en esta llamada de coleccionables y por esta sesión de preguntas y respuestas de seguimiento. Nosotros realmente lo apreciamos.
michaelwong.eth: Sí, gracias, Eliezer.
Eliezer: Gracias por invitarme.