he estado citando AGI Ruin: una lista de letalidades para explicar por qué la situación con la IA me parece letalmente peligrosa. Pero esa publicación es relativamente larga y enfatiza problemas técnicos abiertos específicos sobre “los conceptos básicos”.
Aquí hay 10 cosas en las que me concentraría si estuviera dando “los conceptos básicos” sobre por qué estoy tan preocupado:[1]
1. La inteligencia general es muy poderosa.y una vez que podamos construirlo, Es probable que la inteligencia general artificial (AGI) con capacidad STEM supere ampliamente a la inteligencia humana de inmediato (o muy rápidamente).
Cuando digo “inteligencia general”, por lo general pienso en “lo que sea que permite que los cerebros humanos hagan astrofísica, teoría de categorías, etc., aunque nuestros cerebros evolucionaron bajo una presión de selección literalmente nula para resolver problemas de astrofísica o teoría de categorías”.
Es posible que ya debamos pensar en GPT-4 como “AGI” en algunas definiciones, así que para ser claro sobre el umbral de generalidad que tengo en mente, hablaré específicamente sobre “AGI de nivel STEM”, aunque espero dichos sistemas también sean buenos en tareas que no sean STEM.
Los cerebros humanos no son perfectamente generales, y no todos los sistemas de IA estrechos o los animales son igualmente estrechos. (Por ejemplo, AlphaZero es más general que AlphaGo). Pero es interesante que los humanos desarrollaron habilidades cognitivas que desbloquean todas estas ciencias a la vez, sin ningún ajuste evolutivo del cerebro destinado a equiparnos para cualquiera de esas ciencias. Evolution acaba de encontrar una solución para otro problemas, que pasaron a generalizarse a millones de tareas tremendamente novedosas.
Más concretamente:
- AlphaGo es un razonador muy impresionante, pero su espacio de hipótesis está limitado a secuencias de estados del tablero Go en lugar de secuencias de estados del universo físico. Razonar eficientemente sobre el universo físico requiere resolver al menos algunos problemas que son de un tipo diferente al que resuelve AlphaGo.
- Estos problemas pueden ser resueltos por el programador de STEM AGI y/o resueltos por el algoritmo que encuentra el AGI en el espacio del programa; y algunos de estos problemas pueden ser resueltos por la propia AGI en el curso de refinar su pensamiento.[2]
- Algunos ejemplos de habilidades que espero que los humanos solo automaticen una vez que hayamos construido AGI de nivel STEM (si alguna vez):
- La capacidad de realizar una cirugía a corazón abierto con una alta tasa de éxito, en un entorno quirúrgico ordinario desordenado y no estandarizado.
- La capacidad de igualar el desempeño humano inteligente en un campo científico específico, en todo el trabajo científico que los humanos realizan en ese campo.
- En principio, sospecho que podrías construir un sistema estrecho que sea bueno en esas tareas y que carezca de la maquinaria mental básica requerida para hacer un razonamiento par-humano sobre todo las ciencias duras. En la práctica, espero firmemente que los humanos encuentren formas de construir razonadores generales para realizar esas tareas, antes de descubrir cómo construir razonadores estrechos que puedan hacerlas. (Por la misma razón básica, la evolución tropezó con la inteligencia general tan temprano en la historia del desarrollo tecnológico humano).[3]
Cuando digo “la inteligencia general es muy poderosa”, mucho de lo que quiero decir es que ciencia es muy poderoso, y que tener todas las ciencias a la vez es mucho más poderoso que la suma del impacto de cada ciencia.[4]
Otra gran parte de lo que quiero decir es que la inteligencia general (nivel STEM) es un tipo de cosa de muy alto impacto para automatizar porque es probable que AGI de nivel STEM elimine la inteligencia humana inmediatamente, o muy poco después de su invención.
80,000 Hours brinda el ejemplo (no representativo) de cómo AlphaGo y sus sucesores se comparan con la humanidad:
En el lapso de un año, AI había pasado de ser demasiado débil para ganar un solo [Go] partido contra los peores profesionales humanos, hasta ser imposible de derrotar incluso para los mejores jugadores del mundo.
Espero que la IA de ciencia de propósito general elimine la capacidad de la ciencia humana de manera similar.
Las razones para esto incluyen:
- Empíricamente, los humanos no están cerca de un techo cognitivo, e incluso la IA limitada a menudo supera repentinamente el rango de capacidad de razonamiento humano en la tarea para la que está diseñada. Sería extraño si el razonamiento científico fuera una excepción.
- Empíricamente, los cerebros humanos están llenos de sesgos e ineficiencias cognitivas. Es doblemente extraño si el razonamiento científico es una excepción a pesar de que es visiblemente un lío con toneladas de puntos ciegos, ineficiencias y procesos cognitivos motivados, e innumerables ejemplos históricos de científicos y matemáticos que tardaron décadas en hacer avances técnicamente simples.
- Empíricamente, los cerebros humanos son extremadamente malos en algunos de los procesos cognitivos más básicos que subyacen a STEM.
- Por ejemplo, considere los estrictos límites de la memoria de trabajo humana y la capacidad de hacer cálculos mentales básicos. Apenas podemos multiplicar pequeños números de varios dígitos en nuestra cabeza, cuando en principio un razonador podría tener miles de estructuras matemáticas complejas en su memoria de trabajo simultáneamente y realizar operaciones complejas con ellas. Considere los tipos de tecnologías y conocimientos científicos que solo se le podrían ocurrir a un razonador si puede ver directamente (dentro de su propia cabeza, en tiempo real) las conexiones entre cientos o miles de estructuras formales diferentes.
- Los cerebros humanos no se sometieron a una optimización directa para la capacidad STEM en nuestro entorno ancestral, más allá de rasgos como “Puedo distinguir cuatro objetos en mi campo visual de cinco objetos”.[5]
- Por el contrario, los ingenieros humanos pueden optimizar deliberadamente los cerebros de los sistemas AGI para las capacidades matemáticas, de ingeniería, etc.; y los ingenieros humanos tienen una enorme variedad de herramientas disponibles para construir una inteligencia general de la que careció la evolución.[6]
- El software (a diferencia de la inteligencia humana) escala con más cómputo.
- El ML actual usa mucho más cómputo para encontrar razonadores que a correr razonadores Es muy probable que esto también sea cierto para AGI.
- Probablemente ya tengamos computación más que suficiente, si supiéramos cómo entrenar sistemas AGI de una manera remotamente eficiente.
Y en un nivel meta: la hipótesis de que STEM AGI puede superar rápidamente a los humanos tiene un carácter disyuntivo. Hay muchas ventajas diferentes que individualmente son suficientes para esto, incluso si STEM AGI no comienza con ninguna otra ventaja. (Por ejemplo, velocidad, habilidad matemática, escalabilidad con hardware, habilidad para optimizar hardware…)
Por el contrario, la afirmación de que STEM AGI dar en el blanco estrecho de “capacidad científica par-humana”, y permanecer en torno a ese nivel durante el tiempo suficiente para permitir que la humanidad se adapte y ajuste, tiene un carácter conjuntivo.[7]
2. Una idea errónea común es que el AGI de nivel STEM es peligroso debido a algo turbio sobre los “agentes” o sobre la autoconciencia. En cambio, diría que el peligro es inherente a la naturaleza de las secuencias de acción que empujan al mundo hacia algún estado suficientemente difícil de alcanzar.[8]
Llame a tales secuencias “planes”.
Si tomas una muestra de un plan aleatorio del espacio de todos los planes escribibles (ponderado por longitud, en cualquier lenguaje formal existente), y todo lo que sabemos sobre el plan es que ejecutarlo lograría con éxito algún objetivo tecnológico sobrehumanamente ambicioso como “inventar planes rápidos”. emulación de todo el cerebro“, luego presionar un botón para ejecutar el plan mataría a todos los humanos, con una probabilidad muy alta. Esto es porque:
- “Inventar WBE rápido” es una tarea lo suficientemente difícil como para tener éxito en ella, por lo general, requiere adquirir muchos conocimientos y capacidades cognitivas y tecnológicas, suficientes para hacer muchas otras cosas peligrosas.
- Es más probable que “Inventar WBE rápido” tenga éxito si el plan también incluye pasos que reúnen y controlan tantos recursos como sea posible, eliminan amenazas potenciales, etc. Estos son “estrategias instrumentales convergentes“—estrategias que son útiles para empujar al mundo en una dirección particular, casi sin importar en qué dirección estás empujando.
- Los cuerpos humanos y la comida, el agua, el aire, la luz solar, etc. que necesitamos para vivir son recursos (“estás hecho de átomos que la IA puede usar para otra cosa”); y también somos amenazas potenciales (por ejemplo, podríamos construir una IA superinteligente rival que ejecute un plan totalmente diferente).
El peligro está en el trabajo cognitivo, no en alguna característica complicada o emergente del “agente”; está en la tarea misma.
No es que el espacio abstracto de los planes haya sido construido por mentes malvadas que odian a los humanos; es que el convergencia instrumental la tesis es válida para los planes mismos. En general, los planes que tienen éxito en objetivos como “construir WBE” tienden a ser peligrosos.
Esto no es cierto para todos los planes que impulsan con éxito nuestro mundo en un estado físico específico (suficientemente difícil de alcanzar), pero es cierto para la gran mayoría de ellos.
Esto es contrario a la intuición porque la mayoría de los impresionantes “planes” que encontramos hoy en día son generados por humanos, y es tentador ver planes sólidos a través de una lente humana. Pero los humanos tienen valores, estilos de pensamiento y capacidades que se superponen enormemente; La IA se extrae de nuevas distribuciones.
3. El trabajo actual de ML está en camino de producir cosas que son, en las formas que importan, más como “planes muestreados aleatoriamente” que como “el tipo de planes que produciría una civilización de humanos von Neumanns”. (Antes de que estemos cerca de poder producir este último tipo de cosas).[9]
Estamos construyendo “IA” en el sentido de construir poderosos procesos generales de búsqueda (y procesos de búsqueda para procesos de búsqueda), no construyendo “IA” en el sentido de construir ~humanos amigables pero en silicio.
(Tenga en cuenta que “vamos a construir sistemas que se parecen más a un plan de muestreo aleatorio que a una civilización de humanos Von Neumanns” ¡no implica que el plan que obtendremos sea el que queríamos! Hay dos problemas separados : ese ML actual encuentra cosas que actúan como si estuvieran optimizando la tarea que deseaba en lugar de cosas que realmente optimizan internamente la tarea que deseaba, y también eso internamente ~ maximizar los fines más superficialmente deseables matará a la humanidad.)
Tenga en cuenta que el mismo problema se aplica a los sistemas entrenados para imitar a los humanos, si esos sistemas escalan para poder hacer cosas como “construir una emulación de todo el cerebro”. “Estamos entrenando en algo relacionado con los humanos” no nos da “estamos entrenando cosas que se consideran mejor como humanos más ruido”.
No es obvio para mí que los sistemas similares a GPT puedan escalar a capacidades como “construir WBE”. Pero si lo hacen, nos enfrentamos a la problema que la mayoría de las formas de imitar a los humanos con éxito no parecen “construir un humano (que de alguna manera es sobrehumanamente bueno para imitar Internet)”. Parecen “construir un proceso de optimización extraño y relativamente complejo que es bueno en tareas de imitación (y potencialmente en muchas otras tareas)”.
No necesita ser un ser humano para modelar humanos, como tampoco necesita ser una nube para modelar bien las nubes. La única razón por la que esto es más confuso en el caso de “predecir humanos” que en el caso de “predecir patrones climáticos” es que los humanos y los sistemas de IA son inteligencias, por lo que es más fácil deslizarse entre “los modelos de IA humanos” y “los La IA es básicamente un ser humano”.
4. Las diferencias clave entre humanos y “cosas que se aproximan más fácilmente como procesos de búsqueda aleatorios que como humanos más un poco de ruido” se encuentra en un montón de maquinaria complicada en el cerebro humano.
(Cf. Falacia de la palanca separada, La amabilidad no es naturaly La IA superinteligente es necesaria para un futuro asombroso, pero está lejos de ser suficiente.)
Los humanos no son pizarras en blanco en las formas relevantes, de modo que solo criar una IA como un humano resuelve el problema.
Esto no significa que el problema no tenga solución; pero significa que necesita reproducir esa maquinaria interna, con mucho detalle, en IA, o necesita construir algún nuevo tipo de maquinaria que sea segura por razones distintas a las razones específicas por las que los humanos están seguros.
(Se necesita una maquinaria cognitiva que de alguna manera tome muestras de un espacio mucho más estrecho de planes que aún sean lo suficientemente poderosos para tener éxito en al menos una tarea que salve al mundo, pero que estén restringidos de manera que los hagan mucho menos peligrosos que el espacio más grande de planes. Y necesitas algo que de hecho implementa maquinaria interna como esa, en lugar de simplemente optimizarse para comportarse superficialmente como si lo hiciera en los entornos estrechos y poco representativos en los que se encontraba antes de comenzar a trabajar en WBE. “Trabajo científico novedoso” significa que casi todo lo que desea de la IA está fuera de distribución).
5. Los plazos de AGI de nivel STEM no parecen tan largos (por ejemplo, probablemente no 50 o 150 años; bien podría ser 5 años o 15).
No trataré de argumentar a favor de esta proposición, más allá de señalar la reciente progreso y haciendo eco Los comentarios de Nate Soares desde principios de 2021:
[…] Observo que, hace 15 años, todos decían que AGI está muy lejos debido a lo que no podía hacer: reconocimiento básico de imágenes, go, starcraft, esquemas winograd, tareas de programación simples. Pero básicamente todo eso ha caído. La brecha entre nosotros y AGI se compone principalmente de intangibles. (¿Programación de computadora que es realmente buena? ¿Demostración de teoremas? Claro, pero en mi modelo, las versiones “buenas” de esos están a un pelo de distancia del AGI completo. Y el hecho de que necesito aclarar que las versiones “malas” no cuenta, habla de mi punto de que las únicas barreras que la gente puede nombrar en este momento son intangibles). ¡Ese es un lugar muy incómodo para estar!
[…] Sospecho que estoy más o menos en el “penúltimo estado epistémico” en las líneas de tiempo de AGI: no sé de un proyecto que parezca estar justo al borde; eso me pondría en el “estado epistémico final” de pensar que AGI es inminente. Pero estoy en el penúltimo estado epistémico, donde no me sentiría tan sorprendido de saber que algún grupo ha llegado al borde. ¡Tal vez no reciba esa llamada en 10 años! ¡O 20! Pero también podrían ser 2, y no llegaría a indignarme con la realidad. No podría decir “pero todas las cosas siguientes deberían haber sucedido primero, ¡antes de hacer esa observación!”. Esas cosas han pasado. He hecho esas observaciones. […]
Creo que la tecnología de tiempo es muy difícil (y plausiblemente ~imposible cuando la tecnología no es muy inminente), y creo que las personas razonables pueden estar en desacuerdo sobre los plazos.
También creo que la convergencia en los plazos no es muy crucial, ya que si faltan 50 años para el AGI, diría que sigue siendo el mayor riesgo al que nos enfrentamos, y el trabajo de alineación mínimo necesario para sobrevivir a esa transición podría llevar más tiempo que eso.
Además, “STEM AGI, ¿cuándo?” es el tipo de argumento que requiere discutir las predicciones de las personas sobre cómo llegaremos a STEM AGI, lo cual es algo malo para debatir públicamente en la medida en que mejorar los modelos de caminos de las personas puede acortar aún más los plazos.
Menciono los plazos de todos modos porque son, de hecho, una de las principales razones por las que soy pesimista acerca de nuestras perspectivas; si supiera mañana que AGI está a 200 años de distancia, sería totalmente optimista acerca de que las cosas van bien.
6. Actualmente no sabemos cómo hacer la alineación., no parece que tengamos una idea mucho mejor ahora que hace 10 años, y hay muchas dificultades visibles novedosas y grandes. (Ver Ruina AGI y el Generalización de capacidades y giro brusco a la izquierda.)
En un nivel más básico, citando a Nate Soares: “¿Por qué creo que la alineación de la IA parece bastante difícil? La razón principal es que esta ha sido mi experiencia al trabajar en estos problemas”.
7. Deberíamos empezar con un pesimismo previo sobre Lograr un buen comportamiento confiable en cualquier software complejo crítico para la seguridad, particularmente si el software es nuevo.. Más aún si lo que necesitamos hacer robusto está estructurado como un código de espagueti no documentado, y más aún si el campo es altamente competitivo y necesita lograr alguna propiedad de robustez. mientras se mueve más rápido que un gran grupo de personas menos conscientes de la seguridad que corren hacia el precipicio.
El por defecto La suposición es que el software complejo falla en docenas de maneras diferentes que no esperaba. La realidad termina siendo espinosa e incómoda en muchos de los lugares donde sus modelos estuvieron ausentes o borrosos. Las sorpresas son abundantes, y algunas sorpresas pueden ser buenas, pero esto es empíricamente mucho más raro que las sorpresas desagradables en el infierno del desarrollo de software.
El futuro es difícil de predecir, pero los planes sistemáticamente toman más tiempo y se encuentran con más inconvenientes de los que los humanos ingenuamente esperan, a diferencia de los planes que sistemáticamente van sorprendentemente bien y los plazos se cumplen sistemáticamente antes de lo previsto.
La historia de la seguridad informática y de los sistemas de software críticos para la seguridad es casi invariablemente una de software robusto que va muy, muy por detrás de las versiones no robustas del mismo software. Lograr cualquier propiedad de robustez en software complejo que se implementará en el mundo real, con todo su desorden y optimización contradictoria, es muy difícil y generalmente falla.
En muchos sentidos, creo que la discusión fundamental del riesgo AGI es la mentalidad de seguridad y la paranoia ordinaria y la mentalidad de seguridad y la curva de éxito logístico, y el cuerpo principal del texto ni siquiera menciona AGI. Agregar los detalles de AGI y una IA más inteligente que humana toma el riesgo de “terrible” a “aparentemente abrumador”, pero agregar esos detalles no es necesario para estar muy preocupado si cree que hacer que este software sea correcto es importante para nuestro futuro.
8. Ni ML ni el mundo en general se están tomando esto en serio actualmente.a partir de abril de 2023.
Obviamente, esto es algo que podemos cambiar. Pero hasta que no cambie, las cosas seguirán viéndose muy mal.
Además, la mayoría de las personas que se toman el riesgo de la IA con cierta seriedad, en gran medida, no están dispuestas a preocuparse por las cosas hasta después de que se haya demostrado experimentalmente que son peligrosas. Lo cual es un tipo de metodología letal para adoptar cuando se trabaja con una IA más inteligente que la humana.
Mi imagen básica de por qué el mundo actualmente no está respondiendo apropiadamente es el que está en Cuatro desacuerdos de mentalidad detrás de los desacuerdos de riesgo existencial en ML, La difusión excesivamente lenta de buenas conversaciones AGI en MLy Equilibrios inadecuados.[10]
9. Como se señaló anteriormente, ML actual es muy opacoy principalmente le permite intervenir en proxies de comportamiento para lo que queremos, en lugar de permitirnos diseñar directamente características deseables.
El ML, tal como existe hoy en día, también requiere que los datos estén fácilmente disponibles y sean seguros de proporcionar. Por ejemplo, no podemos entrenar sólidamente al AGI en “no matar gente” porque no podemos proporcionar ejemplos reales de matar gente para entrenar contra el comportamiento que no queremos; solo podemos dar proxies defectuosos y trabajar vía indirecta.
10 Hay muchas habilidades específicas. que parecen ser posibles para el tipo de civilización que puede implementar con seguridad una optimización más inteligente que la humana, que están muy lejos de su alcance, sin un camino obvio para lograrlos con redes profundas opacas, incluso si tuviéramos tiempo ilimitado para trabajar en un conjunto relativamente concreto de direcciones de investigación.
(El tiempo ilimitado es suficiente si podemos establecer una dirección de investigación más abstracta/indirecta, como “solo piensa en el problema durante mucho tiempo hasta que encuentres alguna solución”. Presumiblemente hay caminos a seguir; simplemente no sabemos cuáles son hoy. , lo que nos pone en una situación peor.)
Por ejemplo, no sabemos cómo inspeccionar el cerebro de un sistema de IA que desarrolla nanotecnología para verificar que solo está pensando en una habitación específica, que está representando internamente el objetivo previsto, que está dirigiendo su optimización a esa representación, que internamente tiene un horizonte de planificación particular y una variedad de límites de capacidad, que no puede pensar en optimizadores (o específicamente en humanos), o que tiene los temas correctos internamente en la lista blanca o negra.
Individualmente, me parece que cada una de estas dificultades puede abordarse. En combinación, me parece que nos ponen en una situación muy oscura.
Una respuesta común que escucho a puntos como el anterior es:
El futuro es genéricamente difícil de predecir, por lo que no es posible estar racionalmente seguro de que las cosas saldrán bien o mal. Incluso si observa docenas de argumentos y marcos diferentes y los que resisten el escrutinio casi todos parecen apuntar en la misma dirección, siempre es posible que esté cometiendo algún error invisible de razonamiento que causa fallas correlacionadas en muchos lugares en una vez.
Simpatizo con esto porque estoy de acuerdo en que el futuro es difícil de predecir.
No estoy totalmente seguro de que las cosas salgan mal; si lo fuera, ¡no estaría tratando de resolver el problema! Creo que las cosas se ven extremadamente terribles, pero no desesperadas.
Dicho esto, algunas personas piensan que incluso “extremadamente grave” es un estado de creencia imposible de estar, antes de que ocurra un apocalipsis de IA. No estoy de acuerdo aquí, por dos razones básicas:
a. Hay muchos detalles en los que podemos entrar, pero en un nivel central No creo que el riesgo sea particularmente complicado o difícil de razonar. La preocupación central encaja en un Pío:
Es probable que STEM AI supere con creces las habilidades STEM humanas, lo que le confiere una ventaja decisiva. No estamos en camino de saber cómo apuntar la IA STEM a los objetivos previstos, y las IA STEM que persiguen objetivos no deseados tienden a tener subobjetivos instrumentales como “controlar todos los recursos”.
Zvi Mowshowitz pone la preocupación central en términos aún más básicos:
También noto una especie de presunción de que las cosas en la mayoría de los escenarios funcionarán y que la perdición depende de ‘posibilidades distantes’ particulares, que a menudo tienen muchas dependencias lógicas o requieren que muchas cosas salgan individualmente como se predijo. Mientras que yo diría que esas posibilidades no son tan distantes o improbables, pero lo más importante es que el resultado es sólido, que una vez que la presión de inteligencia y optimización que importa ya no es humana, que la mayoría de los resultados son existencialmente malos según mis valores y que uno puede rechazar o ignorar muchas o la mayoría de las suposiciones detalladas y aún ver esto.
Los detalles son importantes para evaluar el nivel de riesgo exacto, pero este no es el tipo de tema en el que parece fundamentalmente imposible que cualquier ser humano alcance una buena comprensión de las dificultades principales y si las estamos manejando.
b. En relación con esto, como ha argumentado Nate Soares, Los escenarios de desastre de IA son disyuntivo. Hay muchos malos resultados por cada buen resultado, y muchos caminos que conducen al desastre por cada camino que conduce a la utopía.
citando Eliezer Yudkowski:
No puedes adoptar un anterior en el que tienes una probabilidad de 50-50 de ganar la lotería “porque o ganas o no”; la pregunta no es si no estamos seguros, sino si a alguien se le permite exprimir su incertidumbre para esperar buenos resultados.
citando Jack Rabuck:
Escuché toda la entrevista de 4 horas de Lunar Society con @ESYudkowsky
(presentado por @dwarkesh_sp) que se trataba principalmente de la alineación de la IA y creo que identifiqué un punto de confusión/desacuerdo que es bastante común en el área y rara vez se desarrolla:Dwarkesh se refirió repetidamente a la conclusión de que es probable que la IA mate a la humanidad como “salvaje”.
Me parece que Wild reúne dos conceptos, ‘malo’ y ‘complejo’. Y cuando digo complejo, me refiero al sentido de la ecuación de Fermi donde tienes un punto final (humanidad muerta) que depende de una serie de eslabones en una cadena y si rompes alguno de esos eslabones, el estado final no ocurrir.
Me parece que Eliezer cree que este estado final no es salvaje (al menos no en el sentido complejo), sino muy simple. Él piensa que muchos (la mayoría) de los caminos convergen a este estado final.
Eso lleva a una especie de malentendido. Dwarkesh empuja a Eliezer a dar algunas predicciones basadas en la línea de razonamiento que usa para predecir ese punto final, pero dado que el punto final es muy simple y es una convergencia, Eliezer dice correctamente que ser capaz de razonar hasta ese punto final no da cualquier poder predictivo sobre el camino particular que se tomará en este universo para llegar a ese punto final.
Dwarkesh piensa en el fin de la humanidad como una cadena causal con muchos eslabones y si alguno de ellos se rompe significa que los humanos continuarán, mientras que Eliezer piensa en la continuidad de la humanidad (frente a AGI) como una cadena causal con muchos enlaces y si alguno de ellos se rompe significa que la humanidad termina. O quizás más discretamente, Eliezer cree que hay algunas cosas muy difíciles que la humanidad podría hacer para continuar frente a la IA, y en ausencia de una de ellas, el final es una cuestión de cuándo, no de si, y el cuándo está mucho más cerca. de lo que la mayoría de la gente piensa.
De todos modos, creo que tanto Dwarkesh como Eliezer creen que el otro cae del lado de las afirmaciones extraordinarias que requieren evidencia extraordinaria: Dwarkesh piensa que el fin de la humanidad es “salvaje” y Eliezer cree que la viabilidad de la humanidad frente a AGI es “salvaje” (aunque no en el sentido negativo).
No considero que “la ruina de AGI es disyuntiva” un argumento derribador para una alta p (fatalidad) por sí solo. La NASA tiene una alta tasa de éxito en los lanzamientos de cohetes, aunque el éxito requiere que muchas cosas salgan bien al mismo tiempo. La humanidad es capaz de lograr resultados conjuntos, hasta cierto punto; pero creo que este encuadre aclara por qué es posible para llegar racionalmente a una p (fatalidad) alta, en absoluto, cuando suficientes pruebas apuntan en esa dirección.[11]
¿Te gustó esta publicación? Puede disfrutar de nuestras otras publicaciones de análisis, que incluyen: