¿Qué son los datos sintéticos para la inteligencia artificial? — Dan Rose IA

Este artículo es un recorte de mi próximo libro en el que puede registrarse aquí: https://www.danrose.ai/book.

Los datos sintéticos en IA son probablemente el tema en el que más pienso actualmente, para ser honesto. Tiene un enorme potencial para mejorar la privacidad, reducir el sesgo y mejorar la precisión del modelo simultáneamente en un salto tecnológico gigante en los próximos años. Gartner incluso declaró, «Para 2024, el 60% de los datos utilizados para el desarrollo de proyectos de inteligencia artificial y análisis se generarán sintéticamente.«. Eso es un cambio de juego considerando que muchas personas que trabajan con IA hoy en día ni siquiera han comenzado a adoptar esta tecnología.

Los datos sintéticos son datos pero no observaciones reales del mundo. Son datos falsos creados por humanos o algoritmos. Se crea artificial o sintéticamente, pero el objetivo es el mismo que el de los datos reales: representar el mundo en el que se supone que funciona la IA. La idea de que los datos para entrenar modelos de IA deberían representar con precisión el mundo sigue siendo un medio para llegar al final. En última instancia, el objetivo de construir IA son modelos que predigan con precisión para brindar una buena experiencia de usuario.

Tipos de datos sintéticos

Según el tipo de datos, texto, imágenes y datos tabulares, existen diferentes enfoques y casos de uso.

Textos sintéticos

Para la IA de lenguaje y texto, puede generar textos sintéticos que se parecen a los que encontraría en el mundo real. Incluso podría parecer un galimatías para un ser humano, pero si hace el trabajo de representar el mundo cuando se usa para entrenar datos, eso es lo suficientemente bueno.

He implementado ese enfoque antes en un caso de clasificación de texto. Elegí este enfoque porque los datos solo podían almacenarse durante tres meses, lo que dificultaba mantenerse al día con las señales específicas de la temporada. Tomé los datos reales que alimenté a un modelo de lenguaje y ajusté el modelo para que pudiera producir datos similares a los datos reales. Entonces podríamos generar datos ilimitados para cada etiqueta sin datos personales para entrenar los modelos de IA.

Imágenes sintéticas

Para las imágenes, es posible usar un modelo de texto a imagen que puede crear imágenes sintéticas simplemente al ser solicitadas por un usuario con un texto. La versión más famosa de esto es el modelo DALL-E 2 de NVIDIA que produce imágenes increíblemente realistas. Una versión de código abierto, disponible en HuggingFace, llamada DALL-E Mini, se puede probar gratis aquí: https://huggingface.co/spaces/dalle-mini/dalle-mini. Puede solicitar al modelo un texto corto como «fresa cuadrada», y obtiene nueve intentos del modelo para producir una imagen de una fresa cuadrada.

Como el modelo es de código abierto, también puede descargar el modelo y usarlo para sus proyectos.

Las imágenes producidas por DALL-E Mini pueden no ser fotorrealistas, pero aún así son lo suficientemente buenas para entrenar modelos de IA.

Puedes probarlo tú mismo. Ve a la DALL-E Mini y consulta el modelo para hacer imágenes de plátanos y manzanas. Usa oraciones como «Banana sobre la mesa» o «Banana sobre un fondo aleatorio». Haz lo mismo con Apple hasta que tengas unas 30 imágenes de cada uno. Ahora puedes subir estas imágenes a Máquina enseñable para hacer un reconocedor de plátano vs manzana. Te prometo que funcionará. Si no te impresiona un poco que puedas construir IA para reconocer objetos a partir de imágenes puramente sintéticas, entonces no sé qué lo hará.

Los casos de uso aquí son muchos. Puede crear sintéticamente los objetos que espera pero que no ha visto en los datos de entrenamiento. También puede traer objetos ordinarios a fondos aleatorios para asegurarse de cubrir escenarios desconocidos. Eso también aumentará la calidad de los modelos, ya que un cambio en el entorno importará menos.

Datos tabulares sintéticos

Los datos tabulares también se pueden generar sintéticamente. Eso es popular en el cuidado de la salud, ya que el cuidado de la salud es muy vulnerable a los problemas de datos. Además de la interminable combinación de escenarios con diferentes enfermedades y medicinas interactuando, también está el tema de la privacidad. Los datos del historial de diagnóstico y medicación de un paciente pueden ser tan únicos que pueden identificar a las personas. Al generar versiones sintéticas de los datos reales, los datos se pueden ampliar para cubrir mejor escenarios raros y anonimizar los datos. Eso hace que sea fácil de compartir entre investigadores y expertos médicos.

modelos del mundo

Con modelos sintéticos del mundo, también podemos experimentar con soluciones de IA antes de lanzarlas y enseñarles a mejorar a una fracción del costo. Los coches autónomos son un caso de uso perfecto para esto. Los coches autónomos se pueden desarrollar de forma más rápida y segura mediante la construcción de un modelo sintético del mundo cercano al mundo real con física y escenarios aleatorios. Muchas empresas que fabrican automóviles autónomos en la actualidad utilizan modelos integrados en el motor Unity, inicialmente destinados al desarrollo de juegos de computadora. Los autos pueden probar, chocar y mejorar sin humanos en riesgo en un mundo virtual millones de veces antes de ser lanzados.

Lo bueno y lo malo de los datos sintéticos

Los beneficios de aplicar datos sintéticos a sus soluciones son muchos. Puede proporcionar más datos a un precio más bajo para mejorar la precisión de los modelos. Puede eliminar el sesgo igualando los datos agregando características o etiquetas raras que serían una desventaja para algunos grupos. También puede mejorar la privacidad de las personas cuyos datos personales pueden formar parte de los datos de entrenamiento. También puede permitirnos probar escenarios conocidos y desconocidos.

¿Pero está todo bien? No. Los datos sintéticos no son una panacea. Viene con el riesgo de aumentar el sesgo o alejar los datos del mundo que se supone que representa. El desafío es que es difícil identificar la causa del sesgo, ya que los datos sintéticos a menudo se usan cuando los datos reales son escasos y, por definición, son un desafío para la verificación de la realidad. Los datos sintéticos son una solución prometedora para muchos problemas, pero utilícelos con cuidado. Como muy pocos tienen experiencia en datos sintéticos en IA, desconocemos muchos de los desafíos que nos esperan.

Para obtener más consejos, suscríbase al libro aquí: https://www.danrose.ai/book.

Fuente del artículo

Deja un comentario