El 6 de junio, Google suspendió a Blake Lemoine, un ingeniero de Google, por revelar una serie de conversaciones que tuvo con LaMDA, el impresionante modelo grande de Google, en violación de su NDA. La afirmación de Lemoine de que LaMDA ha logrado “sensibilidad” fue ampliamente publicitada y criticada por casi todos los expertos en IA. Y solo dos semanas después de Nando de Freitas, tuiteando sobre el nuevo modelo Gato de DeepMind, afirmó que la inteligencia artificial general es solo una cuestión de escala. Estoy con los expertos; Creo que Lemoine se dejó engañar por su propia disposición a creer, y creo que DeFreitas está equivocado acerca de la inteligencia general. Pero también creo que la “sensibilidad” y la “inteligencia general” no son las cuestiones que deberíamos discutir.
La última generación de modelos es lo suficientemente buena para convencer a algunas personas de que son inteligentes, y si esas personas se están engañando a sí mismas o no, no viene al caso. De lo que deberíamos estar hablando es de la responsabilidad que tienen los investigadores que construyen esos modelos con el público en general. Reconozco el derecho de Google de exigir a los empleados que firmen un NDA; pero cuando una tecnología tiene implicaciones tan potencialmente de largo alcance como la inteligencia general, ¿tienen razón en mantenerla en secreto? O, mirando la pregunta desde la otra dirección, ¿el desarrollo de esa tecnología en público generará conceptos erróneos y pánico donde no se justifica?
Aprende más rápido. Excavar más hondo. Ver más lejos.
Google es uno de los tres principales actores que impulsan la IA, además de OpenAI y Facebook. Estos tres han demostrado diferentes actitudes hacia la apertura. Google se comunica principalmente a través de artículos académicos y comunicados de prensa; vemos anuncios llamativos de sus logros, pero la cantidad de personas que realmente pueden experimentar con sus modelos es extremadamente pequeña. OpenAI es muy similar, aunque también ha hecho posible probar modelos como GPT-2 y GPT-3, además de crear nuevos productos sobre sus API; GitHub Copilot es solo un ejemplo. Facebook tiene código abierto de su modelo más grande, OPT-175Bjunto con varios modelos preconstruidos más pequeños y un voluminoso conjunto de notas que describen cómo se entrenó OPT-175B.
Quiero ver estas diferentes versiones de “apertura” a través de la lente del método científico. (Y soy consciente de que esta investigación realmente es una cuestión de ingeniería, no de ciencia). En términos muy generales, le pedimos tres cosas a cualquier nuevo avance científico:
- Puede reproducir resultados pasados. No está claro qué significa este criterio en este contexto; no queremos una IA para reproducir los poemas de Keats, por ejemplo. Nos gustaría que un modelo más nuevo funcionara al menos tan bien como un modelo más antiguo.
- Puede predecir fenómenos futuros. Interpreto esto como poder producir nuevos textos que sean (como mínimo) convincentes y legibles. Está claro que muchos modelos de IA pueden lograr esto.
- Es reproducible. Alguien más puede hacer el mismo experimento y obtener el mismo resultado. La fusión en frío falla gravemente en esta prueba. ¿Qué pasa con los modelos de lenguaje grande?
Debido a su escala, los modelos de lenguaje grandes tienen un problema significativo con la reproducibilidad. Puede descargar el código fuente del OPT-175B de Facebook, pero no podrá entrenarlo usted mismo en ningún hardware al que tenga acceso. Es demasiado grande incluso para universidades y otras instituciones de investigación. Todavía tienes que tomar la palabra de Facebook de que hace lo que dice que hace.
Esto no es solo un problema para la IA. Uno de nuestros autores de los años 90 pasó de la escuela de posgrado a una cátedra en Harvard, donde investigó la computación distribuida a gran escala. Unos años después de obtener la titularidad, dejó Harvard para unirse a Google Research. Poco después de llegar a Google, escribió en su blog que estaba “trabajando en problemas que son órdenes de magnitud más grandes y más interesantes de lo que puedo trabajar en cualquier universidad.” Eso plantea una pregunta importante: ¿qué puede significar la investigación académica cuando no puede escalar al tamaño de los procesos industriales? ¿Quién tendrá la capacidad de replicar los resultados de la investigación a esa escala? Esto no es solo un problema para la informática; muchos experimentos recientes en física de alta energía requieren energías que solo se pueden alcanzar en el Gran Colisionador de Hadrones (LHC). ¿Confiamos en los resultados si solo hay un laboratorio en el mundo donde se pueden reproducir?
Ese es exactamente el problema que tenemos con los grandes modelos de lenguaje. OPT-175B no se puede reproducir en Harvard o MIT. Probablemente ni siquiera pueda ser reproducido por Google y OpenAI, a pesar de que tienen suficientes recursos informáticos. Apuesto a que OPT-175B está demasiado ligado a la infraestructura de Facebook (incluido el hardware personalizado) para ser reproducido en la infraestructura de Google. Apuesto a que lo mismo ocurre con LaMDA, GPT-3 y otros modelos muy grandes, si los saca del entorno en el que se construyeron. Si Google publicara el código fuente en LaMDA, Facebook tendría problemas para ejecutarlo en su infraestructura. Lo mismo es cierto para GPT-3.
Entonces: ¿qué puede significar la “reproducibilidad” en un mundo donde la infraestructura necesaria para reproducir experimentos importantes no se puede reproducir? La respuesta es proporcionar acceso gratuito a investigadores externos y primeros usuarios, para que puedan hacer sus propias preguntas y ver la amplia gama de resultados. Debido a que estos modelos solo pueden ejecutarse en la infraestructura en la que están construidos, este acceso deberá realizarse a través de API públicas.
Hay muchos ejemplos impresionantes de texto producido por grandes modelos de lenguaje. Los LaMDA son los mejores que he visto. Pero también sabemos que, en su mayor parte, estos ejemplos son muy seleccionados. Y hay muchos ejemplos de fallas, que ciertamente también son seleccionados. Yo diría que, si queremos construir sistemas seguros y utilizables, prestar atención a las fallas (seleccionadas o no) es más importante que aplaudir los éxitos. Ya sea inteligente o no, nos importa más que un auto sin conductor se estrelle que que navegue con seguridad por las calles de San Francisco en la hora pico. Esa no es solo nuestra propensión (consciente) al drama; si está involucrado en el accidente, un accidente puede arruinar su día. Si un modelo de lenguaje natural ha sido entrenado para no producir resultados racistas (y eso sigue siendo un tema de investigación), sus fallas son más importantes que sus éxitos.
Con eso en mente, OpenAI lo ha hecho bien al permitir que otros usen GPT-3, inicialmente, a través de un programa de prueba gratuito limitado, y ahora, como un producto comercial al que los clientes acceden a través de API. Si bien podemos estar legítimamente preocupados por la capacidad de GPT-3 para generar lanzamientos de teorías de conspiración (o simplemente marketing), al menos conocemos esos riesgos. Para todos los resultados útiles que crea GPT-3 (ya sea engañoso o no), también hemos visto sus errores. Nadie afirma que GPT-3 sea sensible; entendemos que su salida es una función de su entrada, y que si lo diriges en cierta dirección, esa es la dirección que toma. Cuando se lanzó por primera vez GitHub Copilot (creado a partir de OpenAI Codex, que a su vez está construido a partir de GPT-3), vi muchas especulaciones de que hará que los programadores pierdan sus trabajos. Ahora que hemos visto Copilot, entendemos que es una herramienta útil dentro de sus limitaciones, y las discusiones sobre la pérdida de empleo se han secado.
Google no ha ofrecido ese tipo de visibilidad para LaMDA. Es irrelevante si están preocupados por la propiedad intelectual, la responsabilidad por el uso indebido o el aumento del miedo público a la IA. Sin la experimentación pública con LaMDA, nuestras actitudes hacia su producción, ya sea de miedo o de éxtasis, se basan al menos tanto en la fantasía como en la realidad. Ya sea que implementemos o no las medidas de seguridad adecuadas, la investigación realizada abiertamente y la capacidad de jugar con (e incluso construir productos a partir de) sistemas como GPT-3, nos han hecho conscientes de las consecuencias de las “falsificaciones profundas”. Esos son miedos y preocupaciones realistas. Con LaMDA, no podemos tener miedos y preocupaciones realistas. Solo podemos tener los imaginarios, que son inevitablemente peores. En un área donde la reproducibilidad y la experimentación son limitadas, permitir que personas ajenas experimenten puede ser lo mejor que podemos hacer.