Escalando picos falsos – O’Reilly

Los humanos son notoriamente pobres para juzgar distancias. Hay una tendencia a subestimar, ya sea la distancia a lo largo de un camino recto con una carrera clara hacia el horizonte o la distancia a través de un valle. Al ascender hacia una cumbre, la estimación se confunde aún más con cumbres falsas. Lo que pensabas que era tu objetivo y punto final resulta ser un pico más bajo o simplemente un contorno que, desde abajo, parecía un pico. Pensaste que lo lograste, o que al menos estuviste cerca, pero aún queda un largo camino por recorrer.

La historia de la IA es una historia de progreso puntuado, pero también es la historia de (muchas) cumbres falsas.

Aprende más rápido. Excavar más hondo. Ver más lejos.

En la década de 1950, la traducción automática del ruso al inglés no se consideraba más compleja que las búsquedas en el diccionario y las frases con plantillas. El procesamiento del lenguaje natural ha recorrido un largo camino desde entonces, habiendo quemado unos cuantos paradigmas para llegar a algo que podamos usar a diario. En la década de 1960, Marvin Minsky y Seymour Papert propusieron el Proyecto Visión de Verano para estudiantes universitarios: conectar una cámara de televisión a una computadora e identificar objetos en el campo de visión. La visión por computadora ahora es algo que se comercializa para tareas específicas, pero continúa siendo un trabajo en progreso y, en todo el mundo, ha tomado más de unos pocos veranos (e inviernos de IA) y muchos más que algunos estudiantes universitarios.

Podemos encontrar muchos más ejemplos a lo largo de muchas más décadas que reflejan ingenuidad y optimismo y, si somos honestos, no poca ignorancia y arrogancia. Las dos lecciones generales que se deben aprender aquí no son que la traducción automática implica más que búsquedas y que la visión por computadora implica más que la detección de bordes, sino que cuando nos enfrentamos a problemas complejos en dominios desconocidos, debemos tener cuidado con cualquier cosa que parezca simple a simple vista. primera vista, y que cuando tenemos soluciones exitosas para una porción específica de un dominio complejo, no debemos asumir que esas soluciones son generalizables. Es probable que este tipo de humildad genere un progreso más significativo y una comprensión más mesurada de dicho progreso. También es probable que reduzca la cantidad de expertos en el futuro que se burlan de las predicciones y ambiciones pasadas, junto con la ironía recurrente de los expertos en aprendizaje automático que parecen incapaces de aprender de las tendencias pasadas en su propio campo.

Todo lo cual nos lleva a Gato de DeepMind y la afirmación de que la cima de la inteligencia artificial general (AGI) está al alcance de la mano. Se ha hecho el trabajo duro y alcanzar AGI ahora es una simple cuestión de escalar. En el mejor de los casos, esta es una cumbre falsa en el camino correcto; en el peor de los casos, es un máximo local lejos de AGI, que se encuentra en una ruta muy diferente en un rango diferente de arquitecturas y pensamientos.

Gato de DeepMind es un modelo de IA al que se le puede enseñar a realizar muchos tipos diferentes de tareas basadas en una única red neuronal transformadora. Las 604 tareas en las que se entrenó a Gato varían desde jugar videojuegos de Atari hasta chatear, desde navegar entornos 3D simulados hasta seguir instrucciones, desde subtitular imágenes hasta robótica en tiempo real y en el mundo real. El logro de la nota es que está respaldado por un solo modelo entrenado en todas las tareas en lugar de diferentes modelos para diferentes tareas y modalidades. Aprender a dominar Space Invaders no interfiere ni desplaza la capacidad de llevar a cabo una conversación de chat.

Gato estaba destinado a “probar la hipótesis de que es posible entrenar a un agente que generalmente es capaz de realizar una gran cantidad de tareas; y que este agente general se puede adaptar con pocos datos adicionales para tener éxito en un número aún mayor de tareas”. En esto, tuvo éxito. Pero, ¿hasta dónde puede generalizarse este éxito en términos de ambiciones más elevadas? los Pío que provocó una ola de respuestas (incluida esta) provino del director de investigación de DeepMind, Nando de Freitas: “¡Todo se trata de la escala ahora! ¡El juego ha terminado!»

El juego en cuestión es la búsqueda de AGI, que está más cerca de lo que la ciencia ficción y el público en general consideran IA que los enfoques estadísticos más limitados pero aplicados y orientados a tareas que constituyen el aprendizaje automático comercial (ML) en la práctica.

La afirmación es que AGI ahora es simplemente una cuestión de mejorar el rendimiento, tanto en hardware como en software, y hacer que los modelos sean más grandes, utilizando más datos y más tipos de datos en más modos. Claro, hay trabajo de investigación por hacer, pero ahora se trata de subir los diales a 11 y más allá y, voilà, habremos escalado la cara norte del AGI para plantar una bandera en la cumbre.

Es fácil quedarse sin aliento en la altura.

Cuando observamos otros sistemas y escalas, es fácil dejarse llevar por similitudes superficiales en lo pequeño y proyectarlas en lo grande. Por ejemplo, si observamos el agua que se arremolina por un desagüe y luego sale al cosmos en las galaxias espirales, vemos una estructura similar. Pero estas espirales están más estrechamente unidas en nuestro deseo de ver la conexión que en la física. Al analizar la escala de IA específica a AGI, es fácil enfocarse en las tareas como la unidad básica de inteligencia y habilidad. Sin embargo, lo que sabemos de la inteligencia y los sistemas de aprendizaje en la naturaleza sugiere que las relaciones entre tareas, inteligencia, sistemas y adaptación son más complejas y sutiles. El simple aumento de una dimensión de la capacidad puede aumentar simplemente una dimensión de la capacidad sin desencadenar una generalización emergente.

Si observamos de cerca el software, la sociedad, la física o la vida, vemos que el escalado suele ir acompañado de cambios fundamentales en el principio y el proceso de organización. Cada escalamiento de un enfoque existente tiene éxito hasta cierto punto, más allá del cual se necesita un enfoque diferente. Puede administrar una pequeña empresa utilizando herramientas de oficina, como hojas de cálculo y una página de redes sociales. Alcanzar la escala de Amazon no es cuestión de hojas de cálculo más grandes y más páginas. Los sistemas grandes tienen arquitecturas y propiedades radicalmente diferentes a los sistemas más pequeños a partir de los cuales se construyen o a los sistemas más simples que los precedieron.

Puede ser que la inteligencia artificial general sea un desafío mucho más importante que tomar modelos basados ​​en tareas y aumentar los datos, la velocidad y la cantidad de tareas. Por lo general, subestimamos la complejidad de estos sistemas. Dividimos y simplificamos, progresamos como resultado, solo para descubrir, a medida que avanzamos, que la simplificación fue solo eso; se necesita un nuevo modelo, paradigma, arquitectura o cronograma para seguir avanzando. Enjuague y repita. Dicho de otra manera, solo porque llegaste al campo base, ¿qué te hace pensar que puedes llegar a la cima usando el mismo enfoque? ¿Y si no puedes ver la cumbre? Si no sabes lo que estás buscando, es difícil trazar un rumbo hacia él.

En lugar de asumir la respuesta, debemos preguntar: ¿Cómo definimos AGI? ¿AGI es simplemente IA basada en tareas para N tareas y un valor suficientemente grande de N? Y, aunque la respuesta a esa pregunta es , ¿el camino hacia AGI está necesariamente centrado en tareas? ¿Cuánto de AGI es el rendimiento? ¿Cuánto de AGI es big/bigger/biggest data?

Cuando observamos la vida y los sistemas de aprendizaje existentes, aprendemos que la escala importa, pero no en el sentido sugerido por un simple multiplicador. Bien puede ser que el truco para descifrar AGI se encuentre en escalar, pero hacia abajo en lugar de hacia arriba.

Hacer más con menos parece ser más importante que hacer más con más. Por ejemplo, el modelo de lenguaje GPT-3 se basa en una red de 175 mil millones de parámetros. La primera versión de DALL-E, el generador de imágenes basado en indicaciones, utilizó una versión de 12 000 millones de parámetros de GPT-3; la segunda versión mejorada usó solo 3.500 millones de parámetros. Y luego está Gato, que logra sus habilidades multitarea y multimodal con solo 1.200 millones.

Estas reducciones insinúan la dirección, pero no está claro que Gato’s, GPT-3’s o cualquier otra arquitectura contemporánea sea necesariamente el vehículo adecuado para llegar al destino. Por ejemplo, ¿cuántos ejemplos de entrenamiento se necesitan para aprender algo? Para los sistemas biológicos, la respuesta es, en general, no muchos; para el aprendizaje automático, la respuesta es, en general, muchas. GPT-3, por ejemplo, desarrolló su modelo de lenguaje basado en 45 TB de texto. A lo largo de su vida, un ser humano lee y escucha del orden de mil millones de palabras; un niño está expuesto a unos diez millones antes de empezar a hablar. Los mosquitos pueden aprender a evitar un pesticida en particular después de un exposición única no letal. Cuando aprende un nuevo juego, ya sea un video, un deporte, un tablero o una carta, generalmente solo necesita que le digan las reglas y luego jugar, tal vez con un juego o dos para practicar y aclarar las reglas, para hacerlo razonablemente. El dominio, por supuesto, requiere mucha más práctica y dedicación, pero la inteligencia general no se trata de dominio.

Y cuando observamos el hardware y sus necesidades, tenga en cuenta que, si bien el cerebro es uno de los órganos del cuerpo humano que más energía consume, todavía tiene un consumo de energía modesto de alrededor de 12 vatios. A lo largo de una vida, el cerebro consumirá hasta 10 MWh; entrenar el modelo de lenguaje GPT-3 tomó un estimado 1 GWh.

Cuando hablamos de escalar, el juego apenas comienza.

Si bien el hardware y los datos son importantes, las arquitecturas y los procesos que respaldan la inteligencia general pueden ser necesariamente bastante diferentes de las arquitecturas y los procesos que sustentan los sistemas de ML actuales. Lanzar hardware más rápido y todos los datos del mundo al problema es probable que obtenga rendimientos decrecientes, aunque eso bien puede permitirnos escalar una cima falsa desde la cual podemos ver la verdadera.

Deja un comentario