La IA de Meta da un paso adelante sin supervisión

La IA de Meta da un paso adelante sin supervision

Los esfuerzos actuales de Ng se centran en su empresa.
IA de aterrizajeque creó una plataforma llamada LandingLens para ayudar a los fabricantes a mejorar la inspección visual con visión artificial. También se ha convertido en algo así como un evangelista de lo que él llama el movimiento de IA centrado en datosque, según él, puede generar soluciones de «pequeños datos» para grandes problemas en IA, incluida la eficiencia, la precisión y el sesgo del modelo.

Andrew Ng en…

Los grandes avances en el aprendizaje profundo durante la última década han sido impulsados ​​por modelos cada vez más grandes que procesan cantidades cada vez mayores de datos. Algunas personas argumentan que eso es un trayectoria insostenible. ¿Estás de acuerdo en que no puede seguir así?

Andrés Ng: Esta es una gran pregunta. Hemos visto modelos básicos en PNL [natural language processing]. Estoy entusiasmado con la idea de que los modelos de PNL sean cada vez más grandes, y también con el potencial de construir modelos básicos en visión por computadora. Creo que aún queda mucha señal por explotar en video: aún no hemos podido construir modelos básicos para video debido al ancho de banda de cómputo y el costo de procesamiento de video, a diferencia del texto tokenizado. Así que creo que este motor de escalado de algoritmos de aprendizaje profundo, que ha estado funcionando durante unos 15 años, todavía tiene fuerza. Habiendo dicho eso, solo se aplica a ciertos problemas, y hay un conjunto de otros problemas que necesitan soluciones de datos pequeños.

Cuando dices que quieres un modelo básico para la visión artificial, ¿qué quieres decir con eso?

Ng: Este es un término acuñado por Percy Liang y algunos de mis amigos en Stanford para referirse a modelos muy grandes, entrenados en conjuntos de datos muy grandes, que pueden ajustarse para aplicaciones específicas. Por ejemplo, GPT-3 es un ejemplo de un modelo base. [for NLP]. Los modelos básicos ofrecen muchas promesas como un nuevo paradigma en el desarrollo de aplicaciones de aprendizaje automático, pero también desafíos en términos de garantizar que sean razonablemente justos y libres de sesgos, especialmente si muchos de nosotros construiremos sobre ellos.

¿Qué debe suceder para que alguien construya un modelo base para video?

Ng: Creo que hay un problema de escalabilidad. La potencia de cómputo necesaria para procesar el gran volumen de imágenes para video es significativa, y creo que es por eso que los modelos básicos surgieron primero en NLP. Muchos investigadores están trabajando en esto, y creo que estamos viendo señales tempranas de que tales modelos se están desarrollando en la visión por computadora. Pero estoy seguro de que si un fabricante de semiconductores nos diera 10 veces más potencia de procesador, podríamos encontrar fácilmente 10 veces más video para construir tales modelos para visión.

Habiendo dicho eso, mucho de lo que sucedió durante la última década es que el aprendizaje profundo ocurrió en empresas orientadas al consumidor que tienen grandes bases de usuarios, a veces miles de millones de usuarios y, por lo tanto, conjuntos de datos muy grandes. Si bien ese paradigma de aprendizaje automático ha generado mucho valor económico en el software de consumo, encuentro que esa receta de escala no funciona para otras industrias.

Volver arriba

Es divertido escucharte decir eso, porque tu primer trabajo fue en una empresa orientada al consumidor con millones de usuarios.

Ng: Hace más de una década, cuando propuse iniciar la Cerebro de Google proyecto para usar la infraestructura informática de Google para construir redes neuronales muy grandes, fue un paso controvertido. Una persona muy importante me hizo a un lado y me advirtió que iniciar Google Brain sería malo para mi carrera. Creo que sintió que la acción no podía consistir simplemente en aumentar la escala y que, en cambio, debería centrarme en la innovación arquitectónica.

“En muchas industrias donde los conjuntos de datos gigantes simplemente no existen, creo que el enfoque debe cambiar de los grandes datos a los buenos datos. Tener 50 ejemplos cuidadosamente diseñados puede ser suficiente para explicarle a la red neuronal lo que quiere que aprenda”.
—Andrew Ng, director ejecutivo y fundador, Landing AI

Recuerdo cuando mis alumnos y yo publicamos el primer
NeurIPS documento de taller abogando por el uso CUDA, una plataforma para el procesamiento en GPU, para el aprendizaje profundo: otro experto en inteligencia artificial me sentó y me dijo: “CUDA es realmente complicado de programar. Como paradigma de programación, esto parece demasiado trabajo. Logré convencerlo; a la otra persona no la convencí.

Espero que ambos estén convencidos ahora.

Ng: Pienso que si.

Durante el año pasado, mientras hablaba con la gente sobre el movimiento de la IA centrada en los datos, tuve recuerdos de cuando hablaba con la gente sobre el aprendizaje profundo y la escalabilidad hace 10 o 15 años. El año pasado, recibí la misma mezcla de «no hay nada nuevo aquí» y «esto parece una dirección equivocada».

Volver arriba

¿Cómo define la IA centrada en datos y por qué la considera un movimiento?

Ng: La IA centrada en datos es la disciplina de diseñar sistemáticamente los datos necesarios para construir con éxito un sistema de IA. Para un sistema de IA, debe implementar algún algoritmo, digamos una red neuronal, en código y luego entrenarlo en su conjunto de datos. El paradigma dominante durante la última década fue descargar el conjunto de datos mientras se enfoca en mejorar el código. Gracias a ese paradigma, durante la última década, las redes de aprendizaje profundo han mejorado significativamente, hasta el punto de que, para muchas aplicaciones, el código, la arquitectura de la red neuronal, es básicamente un problema resuelto. Entonces, para muchas aplicaciones prácticas, ahora es más productivo mantener fija la arquitectura de la red neuronal y, en cambio, encontrar formas de mejorar los datos.

Cuando comencé a hablar sobre esto, hubo muchos practicantes que, de manera totalmente apropiada, levantaron la mano y dijeron: «Sí, hemos estado haciendo esto durante 20 años». Este es el momento de tomar las cosas que algunas personas han estado haciendo intuitivamente y convertirlo en una disciplina de ingeniería sistemática.

El movimiento de IA centrado en datos es mucho más grande que una empresa o grupo de investigadores. Mis colaboradores y yo organizamos una
Taller de IA centrada en datos en NeurIPSy me encantó la cantidad de autores y presentadores que se presentaron.

A menudo habla de empresas o instituciones que solo tienen una pequeña cantidad de datos para trabajar. ¿Cómo puede ayudarlos la IA centrada en datos?

Ng: Se oye hablar mucho de los sistemas de visión creados con millones de imágenes. Una vez construí un sistema de reconocimiento facial con 350 millones de imágenes. Las arquitecturas creadas para cientos de millones de imágenes no funcionan con solo 50 imágenes. Pero resulta que, si tiene 50 ejemplos realmente buenos, puede construir algo valioso, como un sistema de inspección de defectos. En muchas industrias donde los conjuntos de datos gigantes simplemente no existen, creo que el enfoque debe pasar de los grandes datos a los buenos datos. Tener 50 ejemplos cuidadosamente diseñados puede ser suficiente para explicarle a la red neuronal lo que quiere que aprenda.

Cuando habla de entrenar un modelo con solo 50 imágenes, ¿realmente significa que está tomando un modelo existente que se entrenó en un conjunto de datos muy grande y ajustándolo? ¿O se refiere a un modelo completamente nuevo que está diseñado para aprender solo de ese pequeño conjunto de datos?

Ng: Permítanme describir lo que hace Landing AI. Al realizar una inspección visual para los fabricantes, a menudo usamos nuestro propio sabor de RetinaNet. Es un modelo preentrenado. Dicho esto, el entrenamiento previo es una pequeña pieza del rompecabezas. La pieza más grande del rompecabezas es proporcionar herramientas que permitan al fabricante elegir el conjunto correcto de imágenes. [to use for fine-tuning] y etiquetarlos de manera consistente. Hay un problema muy práctico que hemos visto que abarca la visión, la PNL y el habla, donde incluso los anotadores humanos no están de acuerdo con la etiqueta adecuada. Para las aplicaciones de big data, la respuesta común ha sido: si los datos son ruidosos, obtengamos muchos datos y el algoritmo promediará sobre ellos. Pero si puede desarrollar herramientas que señalen dónde los datos son inconsistentes y le brinden una forma muy específica de mejorar la consistencia de los datos, esa resulta ser una forma más eficiente de obtener un sistema de alto rendimiento.

«Recopilar más datos a menudo ayuda, pero si intenta recopilar más datos para todo, puede ser una actividad muy costosa».
—Andrew Ng

Por ejemplo, si tiene 10 000 imágenes de las que 30 imágenes son de una clase y esas 30 imágenes están etiquetadas de manera inconsistente, una de las cosas que hacemos es crear herramientas para llamar su atención sobre el subconjunto de datos que es inconsistente. Por lo tanto, puede volver a etiquetar muy rápidamente esas imágenes para que sean más consistentes, y esto conduce a una mejora en el rendimiento.

¿Podría este enfoque en datos de alta calidad ayudar con el sesgo en los conjuntos de datos? Si puede curar los datos más antes ¿capacitación?

Ng: Mucho. Muchos investigadores han señalado que los datos sesgados son un factor entre muchos que conducen a sistemas sesgados. Ha habido muchos esfuerzos reflexivos para diseñar los datos. En el taller de NeurIPS, Olga Russakovsky dio una muy buena charla sobre esto. En la conferencia principal de NeurIPS, también disfruté mucho presentación de Mary Gray, que se refirió a cómo la IA centrada en datos es una parte de la solución, pero no la solución completa. Nuevas herramientas como Hojas de datos para conjuntos de datos también parecen una pieza importante del rompecabezas.

Una de las poderosas herramientas que nos brinda la IA centrada en los datos es la capacidad de diseñar un subconjunto de los datos. Imagine entrenar un sistema de aprendizaje automático y descubrir que su rendimiento está bien para la mayoría del conjunto de datos, pero su rendimiento está sesgado solo para un subconjunto de los datos. Si intenta cambiar toda la arquitectura de la red neuronal para mejorar el rendimiento solo en ese subconjunto, es bastante difícil. Pero si puede diseñar un subconjunto de los datos, puede abordar el problema de una manera mucho más específica.

Cuando hablas de diseñar los datos, ¿a qué te refieres exactamente?

Ng: En AI, la limpieza de datos es importante, pero la forma en que se han limpiado los datos a menudo ha sido de manera muy manual. En la visión por computadora, alguien puede visualizar imágenes a través de un cuaderno jupyter y tal vez detectar el problema, y ​​tal vez arreglarlo. Pero estoy entusiasmado con las herramientas que le permiten tener un conjunto de datos muy grande, herramientas que atraen su atención de manera rápida y eficiente hacia el subconjunto de datos donde, por ejemplo, las etiquetas son ruidosas. O para atraer rápidamente su atención a una clase entre 100 clases en las que le beneficiaría recopilar más datos. La recopilación de más datos a menudo ayuda, pero si intenta recopilar más datos para todo, puede ser una actividad muy costosa.

Por ejemplo, una vez descubrí que un sistema de reconocimiento de voz funcionaba mal cuando había ruido de un automóvil de fondo. Saber eso me permitió recopilar más datos con el ruido de los automóviles de fondo, en lugar de tratar de recopilar más datos para todo, lo que habría sido costoso y lento.

Volver arriba

¿Qué pasa con el uso de datos sintéticos, a menudo es una buena solución?

Ng: Creo que los datos sintéticos son una herramienta importante en el cofre de herramientas de la IA centrada en datos. En el taller de NeurIPS, Ánima Anandkumar dio una gran charla que abordó los datos sintéticos. Creo que hay usos importantes de los datos sintéticos que van más allá de ser un paso de preprocesamiento para aumentar el conjunto de datos para un algoritmo de aprendizaje. Me encantaría ver más herramientas que permitan a los desarrolladores usar la generación de datos sintéticos como parte del ciclo cerrado del desarrollo de aprendizaje automático iterativo.

¿Quiere decir que los datos sintéticos le permitirían probar el modelo en más conjuntos de datos?

Ng: Realmente no. Aquí hay un ejemplo. Supongamos que está tratando de detectar defectos en la carcasa de un teléfono inteligente. Hay muchos tipos diferentes de defectos en los teléfonos inteligentes. Podría ser un rasguño, una abolladura, marcas de hoyos, decoloración del material, otros tipos de imperfecciones. Si entrena el modelo y luego descubre a través del análisis de errores que está funcionando bien en general, pero tiene un rendimiento deficiente en las marcas de boxes, entonces la generación de datos sintéticos le permite abordar el problema de una manera más específica. Podría generar más datos solo para la categoría de pit-mark.

“En la Internet del software de consumo, podrÃamos entrenar un puñado de modelos de aprendizaje automático para servir a mil millones de usuarios. En la fabricación, es posible que tenga 10 000 fabricantes que construyan 10 000 modelos de IA personalizados”.
—Andrew Ng

La generación de datos sintéticos es una herramienta muy poderosa, pero hay muchas herramientas más simples que a menudo probaré primero. Como el aumento de datos, la mejora de la consistencia del etiquetado o simplemente pedirle a una fábrica que recopile más datos.

Volver arriba

Para hacer estos problemas más concretos, ¿puedes darme un ejemplo? Cuando una empresa se acerca IA de aterrizaje y dice que tiene un problema con la inspección visual, ¿cómo los incorpora y trabaja para el despliegue?

Ng: Cuando un cliente se acerca a nosotros, generalmente conversamos sobre su problema de inspección y miramos algunas imágenes para verificar que el problema es factible con la visión artificial. Suponiendo que lo sea, les pedimos que carguen los datos en el lente de aterrizaje plataforma. A menudo los asesoramos sobre la metodología de la IA centrada en datos y los ayudamos a etiquetar los datos.

Uno de los enfoques de Landing AI es empoderar a las empresas de fabricación para que hagan el trabajo de aprendizaje automático por sí mismas. Gran parte de nuestro trabajo es asegurarnos de que el software sea rápido y fácil de usar. A través del proceso iterativo de desarrollo de aprendizaje automático, asesoramos a los clientes sobre cómo entrenar modelos en la plataforma, cuándo y cómo mejorar el etiquetado de datos para mejorar el rendimiento del modelo. Nuestra capacitación y software los respaldan durante todo el proceso de implementación del modelo capacitado en un dispositivo perimetral en la fábrica.

¿Cómo lidias con las necesidades cambiantes? Si los productos cambian o las condiciones de iluminación cambian en la fábrica, ¿puede el modelo mantenerse al día?

Ng: Varía según el fabricante. Hay deriva de datos en muchos contextos. Pero hay algunos fabricantes que han estado operando la misma línea de fabricación durante 20 años con pocos cambios, por lo que no esperan cambios en los próximos cinco años. Esos entornos estables facilitan las cosas. Para otros fabricantes, proporcionamos herramientas para marcar cuando hay un problema significativo de deriva de datos. Me parece muy importante capacitar a los clientes de fabricación para que corrijan los datos, vuelvan a entrenar y actualicen el modelo. Porque si algo cambia y son las 3 am en los Estados Unidos, quiero que puedan adaptar su algoritmo de aprendizaje de inmediato para mantener las operaciones.

En la Internet del software de consumo, podríamos entrenar un puñado de modelos de aprendizaje automático para servir a mil millones de usuarios. En la fabricación, es posible que tenga 10 000 fabricantes que construyan 10 000 modelos de IA personalizados. El desafío es, ¿cómo se hace eso sin que Landing AI tenga que contratar a 10 000 especialistas en aprendizaje automático?

Así que está diciendo que para que sea escalable, debe capacitar a los clientes para que realicen gran parte de la capacitación y otros trabajos.

Ng: ¡Sí exactamente! Este es un problema de toda la industria en IA, no solo en la fabricación. Mira el cuidado de la salud. Cada hospital tiene su propio formato ligeramente diferente para los registros de salud electrónicos. ¿Cómo puede cada hospital entrenar su propio modelo de IA personalizado? No es realista esperar que el personal de TI de cada hospital invente nuevas arquitecturas de redes neuronales. La única forma de salir de este dilema es crear herramientas que permitan a los clientes crear sus propios modelos brindándoles herramientas para diseñar los datos y expresar su conocimiento de dominio. Eso es lo que está ejecutando Landing AI en la visión artificial, y el campo de la IA necesita otros equipos para ejecutar esto en otros dominios.

¿Hay algo más que creas que es importante que la gente entienda sobre el trabajo que estás haciendo o el movimiento de IA centrado en datos?

Ng: En la última década, el mayor cambio en la IA fue un cambio hacia el aprendizaje profundo. Creo que es muy posible que en esta década el mayor cambio sea hacia la IA centrada en datos. Con la madurez de las arquitecturas de redes neuronales actuales, creo que para muchas de las aplicaciones prácticas el cuello de botella será si podemos obtener de manera eficiente los datos que necesitamos para desarrollar sistemas que funcionen bien. El movimiento de IA centrado en datos tiene una energía y un impulso tremendos en toda la comunidad. Espero que más investigadores y desarrolladores participen y trabajen en ello.

Volver arriba

Este artículo aparece en la edición impresa de abril de 2022 como “Andrew Ng, AI Minimalist.â€

De los artículos de su sitio

Artículos relacionados en la Web

Deja un comentario