Mensaje invitado de José Hernández-Orallo, Catedrático de la Universidad Politécnica de Valencia
THace dos décadas comencé a trabajar en métricas de inteligencia artificial. En ese momento, durante los días glaciales del segundo invierno de la IA, pocos estaban realmente interesados en medir algo de lo que la IA carecía por completo. Y muy pocos, como David L. Dowe y yo, estábamos interesados en métricas de inteligencia vinculadas a teoría algorítmica de la informacióndonde los modelos de interacción entre un agente y el mundo eran secuencias de bits, y la inteligencia se formulaba utilizando de Solomonoff y de Wallace teorías de la inferencia inductiva.
Mientras tanto, aparentemente se propusieron docenas de variantes de la prueba de Turing cada año, se introdujeron los CAPTCHA y David mostró lo fácil que es resuelva algunas pruebas de coeficiente intelectual utilizando un programa muy simple basado en un enfoque de gran cambio. Y, hoy, ha llegado una nueva primavera de IA, impulsada por un floreciente campo de aprendizaje automático, que brinda un enfoque más experimental a la IA con un número cada vez mayor de Puntos de referencia y competiciones de IA (ver una entrada anterior en este blog para una encuesta).
Teniendo en cuenta esta perspectiva de 20 años, el año pasado fue especial en muchos sentidos. Él primero en un serie de talleres sobre la evaluación de la IA de propósito general despegó, haciéndose eco del creciente interés en la evaluación de los sistemas de inteligencia artificial general (AGI), capaces de encontrar diversas soluciones para una variedad de tareas. Evaluar estos sistemas es diferente y más desafiante que la evaluación tradicional orientada a tareas de sistemas específicos, como un limpiador robótico, un modelo de calificación crediticia, un traductor automático o un automóvil autónomo. Él idea de evaluar sistemas de IA de propósito general usando videojuegos se había dado cuenta. Él entorno de aprendizaje arcade (los juegos de Atari 2600) o los más flexibles Lenguaje de definición de videojuegos y competencia asociada se hizo cada vez más popular por la evaluación de AGI y su reciente avances.
El año pasado también fue testigo de la introducción de un tipo diferente de Plataformas de evaluación de IAcomo Microsoft MalmöGoodAI’s EscuelaOpenAI’s Gimnasio y UniversoDeepMind’s LaboratorioFacebook’s TorchCraft y ComAI-env. Basadas en una configuración de aprendizaje por refuerzo (RL), estas plataformas permiten crear muchas tareas diferentes y conectar agentes de RL a través de una interfaz estándar. Muchas de estas plataformas se adaptan bien a los nuevos paradigmas de la IA, como el aprendizaje de refuerzo profundo y algunas bibliotecas de aprendizaje automático de código abierto. Después de miles de episodios o millones de pasos frente a una nueva tarea, estos sistemas pueden sobresalir, generalmente con un rendimiento mejor que el humano.
A pesar de las innumerables aplicaciones y avances que se han derivado de este paradigma, parece haber un consenso en el campo de que el principal problema abierto radica en cómo un agente de IA puede reutilizar las representaciones y habilidades de una tarea a otras nuevas, haciéndolas posible aprender una nueva tarea mucho más rápido, con unos pocos ejemplos, como lo hacen los humanos. Esto puede verse como un problema de mapeo (usualmente bajo el término aprendizaje de transferencia) o puede verse como un problema secuencial (usualmente bajo los términos aprendizaje gradual, acumulativo, incremental, continuo o curricular).
Una de las nociones clave que se asocia con esta capacidad de un sistema de construir nuevos conceptos y habilidades sobre los anteriores se suele denominar «composicionalidad», que está bien documentada en humanos de NIñez temprana. Los sistemas son capaces de combinar las representaciones, conceptos o habilidades que se han aprendido previamente para resolver un nuevo problema. Por ejemplo, un agente puede combinar la habilidad de subir una escalera con su uso como posible salida de una habitación, o un agente puede aprender a multiplicar después de aprender a sumar.
En mi opinión, dos de las plataformas anteriores son más adecuadas para la composicionalidad: Malmö y CommAI-env. Malmö tiene todos los ingredientes de un juego 3D, y los investigadores de IA pueden experimentar y evaluar agentes con visión y navegación 3D, que es lo que han hecho muchos trabajos de investigación que utilizan Malmö hasta ahora, ya que este es un tema candente en IA en este momento. Sin embargo, para mÃ, la caracterÃstica más interesante de Malmö es la creación y la creación, donde los agentes deben combinar necesariamente conceptos y habilidades anteriores para crear cosas más complejas.
ComAI-env es claramente un valor atípico en este conjunto de plataformas. No es un videojuego en 2D o 3D. El video o el audio no tienen ningún papel allí. La interacción se produce a través de un flujo de bits de entrada/salida y recompensas, que son solo +1, 0 o -1. Básicamente, las acciones y las observaciones son binarias. La lógica detrás de CommAI-env es dar importancia a las habilidades de comunicación, pero aun así permite una rica interacción, patrones y tareas, mientras «mantiene todas las complejidades adicionales al mínimo».
Cuando me di cuenta de que el Desafío general de IA estaba usando CommAI-env para su ronda de calentamiento, estaba extasiado. Los participantes podrían concentrarse en los agentes de RL sin las complejidades de la visión y la navegación. Por supuesto, la visión y la navegación son muy importantes para las aplicaciones de IA, pero crean muchas complicaciones adicionales si queremos comprender (y evaluar) el aprendizaje gradual. Por ejemplo, se puede considerar que dos tareas iguales para las que cambia la textura de las paredes requieren un mayor esfuerzo de transferencia que dos tareas ligeramente diferentes con la misma textura. En otras palabras, estos serían factores de confusión adicionales que harían mucho más difícil el análisis de la transferencia de tareas y las dependencias de tareas. Entonces es una sabia elección excluir esto de la ronda de calentamiento. Habrá ocasiones durante otras rondas del desafío para incluir visión, navegación y otros tipos de encarnaciones complejas. Comenzar con una interfaz mínima para evaluar si los agentes pueden aprender de manera incremental no solo es un desafío, sino un problema abierto importante para la IA en general.
Además, la ronda de calentamiento ha modificado CommAI-env de tal manera que los bits se empaquetan en caracteres de 8 bits (1 byte). Esto hace que la definición de tareas sea más intuitiva y que la codificación ASCII sea transparente para los agentes. Básicamente, el conjunto de acciones y observaciones se amplía a 256. Pero, curiosamente, el conjunto de observaciones y acciones es el mismo, lo que permite muchas posibilidades que son inusuales en el aprendizaje por refuerzo, donde estos subconjuntos son diferentes. Por ejemplo, un agente con primitivas como «copiar entrada a salida» y otros operadores de transformación de secuencias puede componerlas para resolver la tarea. Las variables y otros tipos de abstracciones juegan un papel clave.
Esto podría dar la impresión de que volvemos a las máquinas de Turing y la IA simbólica. En cierto modo, este es el caso, y muy en consonancia con la visión de Turing en su papel de 1950: “es posible enseñar a una máquina mediante castigos y recompensas a obedecer órdenes dadas en algún lenguaje, por ejemplo, un lenguaje simbólico†. Pero en 2017 tenemos una gama de técnicas que no estaban disponibles hace solo unos años. Por ejemplo, las máquinas neuronales de Turing y otras redes neuronales con memoria simbólica pueden ser muy adecuadas para este problema.
De ninguna manera esto indica que la legión de entusiastas del aprendizaje por refuerzo profundo no pueda llevar sus aparatos a esta ronda de calentamiento. De hecho, no se sentirán decepcionados por este desafío si realmente trabajan duro para adaptar el aprendizaje profundo a este problema. Probablemente no necesitarán una red convolucional ajustada para el reconocimiento de patrones visuales, pero hay muchas posibilidades y desafíos en cómo hacer que el aprendizaje profundo funcione en un entorno como este, especialmente porque cuantos menos ejemplos, mejor, y el aprendizaje profundo generalmente requiere muchos ejemplos
Como plus, lo sencillo, simbólico La interfaz secuencial abre el desafío a muchas otras áreas de la IA, no solo redes neuronales recurrentes, sino también técnicas de procesamiento de lenguaje natural, computación evolutiva, algoritmos inspirados en la compresión o incluso áreas como la programación inductiva, con poderosas primitivas de manejo de cadenas y su idoneidad para los problemas. con muy pocos ejemplos.
Creo que todo lo anterior hace de esta ronda de calentamiento una competencia única. Por supuesto, dado que no hemos tenido nada similar en el pasado, es posible que tengamos algunas sorpresas. Puede suceder que una técnica inesperada (o incluso ingenua) se comporte mucho mejor que otras (y humanos) o quizás nos encontremos con que ninguna técnica es capaz de hacer algo significativo en este momento.
Estoy ansioso por ver cómo se desarrolla esta ronda y qué son capaces de integrar e inventar los participantes para resolver la secuencia de micro y minitareas. Estoy seguro de que aprenderemos mucho de esto. Espero que las máquinas también lo hagan. ¡Y todos nosotros avanzaremos a la siguiente ronda!
José Hernández-Orallo es profesor de la Universidad Politécnica de Valencia y autor de “La medida de todas las mentes, evaluando la inteligencia natural y artificial†, Cambridge University Press, 2017.