El modelo de segmentación SAM AI de Meta está un paso más cerca de hacer que AR sea útil

Meta ha presentado el Segment Anything Model, cuyo objetivo es establecer un nuevo estándar para la “segmentación de objetos” basada en la visión por computadora: la capacidad de las computadoras para comprender la diferencia entre objetos individuales en una imagen o video. La segmentación será clave para hacer que AR sea realmente útil al permitir una comprensión integral del mundo que rodea al usuario.

La segmentación de objetos es el proceso de identificar y separar objetos en una imagen o video. Con la ayuda de la IA, este proceso se puede automatizar, lo que permite identificar y aislar objetos en tiempo real. Esta tecnología será fundamental para crear una experiencia AR más útil al dar al sistema una conciencia de varios objetos en el mundo que rodea al usuario.

El reto

Imagine, por ejemplo, que está usando un par de anteojos AR y le gustaría tener dos monitores virtuales flotantes a la izquierda y derecha de su monitor real. A menos que vaya a decirle manualmente al sistema dónde está su monitor real, debe poder entender cómo se ve un monitor para que cuando vea su monitor pueda colocar los monitores virtuales en consecuencia.

Pero los monitores vienen en todas las formas, tamaños y colores. A veces, los reflejos o los objetos ocluidos dificultan aún más el reconocimiento de un sistema de visión artificial.

Tener un sistema de segmentación rápido y confiable que pueda identificar cada objeto en la habitación que lo rodea (como su monitor) será clave para desbloquear toneladas de casos de uso de AR para que la tecnología pueda ser realmente útil.

La segmentación de objetos basada en la visión por computadora ha sido un área de investigación en curso durante muchos años, pero uno de los problemas clave es que para ayudar a las computadoras a comprender lo que están mirando, debe entrenar un modelo de IA dándole mucha Imágenes para aprender.

Dichos modelos pueden ser bastante efectivos para identificar los objetos en los que fueron entrenados, pero si lucharán con objetos que no han visto antes. Eso significa que uno de los mayores desafíos para la segmentación de objetos es simplemente tener un conjunto de imágenes lo suficientemente grande para que los sistemas aprendan, pero recopilar esas imágenes y anotarlas de una manera que las haga útiles para el entrenamiento no es una tarea fácil.

sam yo soy

Meta publicó recientemente un trabajo sobre un nuevo proyecto llamado Segmentar cualquier modelo (SAM). Es a la vez un modelo de segmentación y un conjunto masivo de imágenes de capacitación que la empresa está lanzando para que otros las desarrollen.

El proyecto tiene como objetivo reducir la necesidad de experiencia en modelado de tareas específicas. SAM es un modelo de segmentación general que puede identificar cualquier objeto en cualquier imagen o video, incluso para objetos y tipos de imágenes que no vio durante el entrenamiento.

SAM permite la segmentación automática e interactiva, lo que le permite identificar objetos individuales en una escena con entradas simples del usuario. SAM se puede ‘solicitar’ con clics, casillas y otras indicaciones, dando a los usuarios control sobre lo que el sistema está tratando de identificar en un momento dado.

Es fácil ver cómo esta indicación basada en puntos podría funcionar muy bien si se combina con el seguimiento ocular en un auricular AR. De hecho, ese es exactamente uno de los casos de uso que Meta ha demostrado con el sistema:

Aquí hay otro ejemplo del uso de SAM en un video en primera persona capturado por las gafas Project Aria de Meta:

Puede pruebe SAM usted mismo en su navegador ahora mismo.

Cómo SAM sabe tanto

Parte de las impresionantes habilidades de SAM provienen de sus datos de entrenamiento que contienen 10 millones de imágenes y 1000 millones de formas de objetos identificados. Es mucho más completo que los conjuntos de datos contemporáneos, según Meta, lo que le da a SAM mucha más experiencia en el proceso de aprendizaje y le permite segmentar una amplia gama de objetos.

El modelo de segmentacion SAM AI de Meta esta un
Imagen cortesía de Meta

Meta llama al conjunto de datos SAM SA-1B, y la empresa es liberando todo el set para que otros investigadores puedan aprovechar.

Meta espera que este trabajo sobre segmentación rápida y el lanzamiento de este conjunto de datos de entrenamiento masivo acelere la investigación sobre la comprensión de imágenes y videos. La empresa espera que el modelo SAM se pueda usar como un componente en sistemas más grandes, lo que permite aplicaciones versátiles en áreas como AR, creación de contenido, dominios científicos y sistemas generales de IA.

Fuente del artículo

Deja un comentario