Está bien establecido que Vision Transformers (ViTs) puede superar a las redes neuronales convolucionales (CNN), como ResNets en el reconocimiento de imágenes. Pero, ¿cuáles son los factores que provocan un rendimiento superior de ViTs? Para responder a esto, investigamos las representaciones aprendidas de modelos preentrenados.
En este artículo, exploraremos varios temas basados en documentos de visión por computadora de alto impacto:
-
El conflicto de señales entre textura y forma y los problemas que surgen con el entrenamiento supervisado en ImageNet.
-
Varias formas de aprender representaciones visuales sólidas y significativas, como la autosupervisión y la supervisión del lenguaje natural.
-
La solidez de las ViT frente a las CNN, además de resaltar las intrigantes propiedades que surgen de las ViT entrenadas.
Los ataques adversarios son experimentos bien conocidos que nos ayudan a comprender mejor el funcionamiento de una red de clasificación. Ellos son diseñado para engañar a las redes neuronales aprovechando sus gradientes (Goodfellow et al. ). En lugar de minimizar la pérdida alterando los pesos, una perturbación antagónica cambia las entradas para maximizar la pérdida en función de los gradientes calculados. Veamos las perturbaciones antagónicas calculadas para un modelo ViT y ResNet.
Fig. 1: ViTs y ResNets procesan sus entradas de manera muy diferente. Fuente
Como se muestra en la figura anterior, las perturbaciones antagónicas son cualitativamente muy diferentes. Aunque ambos modelos pueden funcionar de manera similar en el reconocimiento de imágenes, ¿por qué tienen diferentes perturbaciones adversarias?
Primero introduzcamos algunos conocimientos previos.
Robustez: aplicamos una perturbación a las imágenes de entrada (es decir, enmascaramiento, desenfoque) y hacemos un seguimiento de la caída del rendimiento del modelo entrenado. ¡Cuanto menor sea la degradación del rendimiento, más robusto será el clasificador!
La robustez se mide en configuraciones supervisadas, por lo que la métrica de rendimiento suele ser la precisión de la clasificación. Además, la robustez se puede definir con respecto a las perturbaciones del modelo; por ejemplo, eliminando algunas capas. Pero esto no es tan común. Tenga en cuenta que nuestra definición de robustez siempre incluye una perturbación.
El transformador puede atender a todos los tokens (parches de imagen de 16×16) en cada bloque por diseño. El modelo ViT propuesto originalmente por Dosovitskiy et al. ya demostró que las cabezas de las primeras capas tienden a prestar atención a los píxeles lejanos, mientras que las cabezas de las capas posteriores no lo hacen.
Fig. 2: Cómo las cabezas de diferentes capas atienden a sus píxeles circundantes. Fuente: Dosovitskiy et al.
Las correlaciones de largo alcance son realmente beneficiosas para la clasificación de imágenes., pero ¿es esta la única razón del rendimiento superior de ViTs? Para eso, debemos dar un paso atrás y observar más de cerca las representaciones de las CNN, específicamente las ResNet, ya que se han estudiado con mayor profundidad.
Las CNN preentrenadas de ImageNet están sesgadas hacia la textura
En su artículo “¿Hemos terminado con ImageNet?”, Beyer et al. discutir si el modelo existente simplemente se adapta demasiado a las idiosincrasias del procedimiento de etiquetado de ImageNet. Para profundizar en las representaciones aprendidas de modelos preentrenados, nos centraremos en el infame estudio ResNet50 de . Más específicamente, Geirhos et al. demostró que las CNN capacitadas en ImageNet son fuertemente sesgado hacia el reconocimiento de texturas en lugar de formas. A continuación se muestra un excelente ejemplo de tal caso:
Fig. 3: Clasificación de un ResNet-50 estándar de (a) una imagen de textura (piel de elefante: solo señales de textura); (b) una imagen normal de un gato (con señales tanto de forma como de textura), y (c) una imagen con un conflicto de señales de textura-forma, generado por la transferencia de estilo entre las dos primeras imágenes. Fuente: Geirhos et al. .
Izquierda: una imagen de textura (piel de elefante) que se reconoce correctamente. Centro: una imagen clasificada correctamente de un gato encantador. Bien: cuando se presenta a la red una superposición de la textura del elefante con la forma del gato (derecha), la predicción favorece en gran medida la textura en lugar de la forma del objeto. Este es el llamado conflicto de señal de forma de textura. La imagen de la derecha se generó mediante la normalización de instancias adaptables.
En este punto, te estarás preguntando, ¿qué tiene de malo la textura?
Los estudios de neurociencia (Landau et al. ) mostró ese objeto la forma es la pista más importante para el reconocimiento de objetos humanos. Al estudiar la vía visual de los humanos con respecto al reconocimiento de imágenes, los investigadores identificaron que la percepción de la forma del objeto es invariable a la mayoría de las perturbaciones. Por lo que sabemos, la forma es la señal más confiable.
Intuitivamente, la forma del objeto permanece relativamente estable, mientras que otras señales pueden distorsionarse fácilmente por todo tipo de ruido, como la lluvia y la nieve en un escenario de la vida real. . Las representaciones basadas en formas son, por lo tanto, muy beneficiosas para la clasificación de imágenes.
Eso explica por qué los humanos pueden reconocer bocetos, pinturas o dibujos mientras las redes neuronales luchan (el rendimiento se deteriora significativamente).
Fig. 4: Exactitudes y estímulos de ejemplo para cinco experimentos diferentes sin conflicto de señales. Fuente: Geirhos et al. .
En la imagen de arriba, las siluetas y los bordes se crean a partir de algoritmos tradicionales de visión por computadora. Es importante señalar en este punto que todas las CNN fueron entrenadas en Imagenet utilizando la etiqueta de imagen como supervisión, lo que plantea la pregunta: ¿ImageNet es parte del problema?
¿Qué tiene de malo ImageNet?
Brendel et al. proporcionó suficientes resultados experimentales para afirmar que ImageNet se puede “resolver” (precisión decentemente alta) usando solo información local. En otras palabras, basta con integrar evidencia de muchas características de textura locales en lugar de pasar por el proceso de integración y clasificación de formas globales.
¿El problema? Las funciones aprendidas de ImageNet se generalizan mal en presencia de fuertes perturbaciones. Esto limita severamente el uso de modelos previamente entrenados en configuraciones donde las características de forma se traducen bien, pero las características de textura no.
Un ejemplo de mala generalización es el conjunto de datos Stylized ImageNet (SIN).
Fig. 5: El conjunto de datos SIN. Derecha: imagen de referencia. Izquierda: Ejemplo de imágenes sin textura que solo se pueden reconocer por la textura. Geirhos et al. .
SIN es un conjunto de datos sintético sin textura, en el que la clase de objeto solo se puede determinar mediante el aprendizaje de representaciones basadas en formas.
Basado en extensos experimentos, Geirhos et al. encontró ese sesgo de textura en las CNN actuales no es por diseño, sino inducido por los datos de entrenamiento de ImageNetlo que dificulta la transferibilidad de esas características en conjuntos de datos más desafiantes (es decir, SIN).
Por lo tanto, las CNNs supervisadas y capacitadas en ImageNet probablemente estén tomando un “atajo” centrándose en las texturas locales : “Si las texturas son suficientes, ¿por qué una CNN debería aprender mucho más?”
Entonces, ¿cómo podemos hacer que el modelo no tenga sesgo de textura? Comencemos con una solución muy simple.
Tareas artesanales: predicción de rotación
Se han propuesto varias tareas de pretexto hechas a mano para mejorar las representaciones aprendidas. Estas tareas de pretexto se pueden utilizar para la formación previa autosupervisada o como objetivos auxiliares. El preentrenamiento autosupervisado requiere más recursos y, por lo general, un conjunto de datos más grande, mientras que el objetivo auxiliar introduce un nuevo hiperparámetro para equilibrar la contribución de las pérdidas múltiples.
Por ejemplo, Gidaris et al. utilizó la predicción de rotación para el preentrenamiento autosupervisado. La intuición central de la predicción de rotación (típicamente [0,90,180,270]) es que si alguien no es consciente de los objetos representados en las imágenes, no puede reconocer la rotación que se les aplicó.
Fig. 6: Rotaciones aplicadas. Fuente: Gidaris et al. ICLR 2018
En el siguiente ejemplo, el la textura no es suficiente para determinar si la cebra está girada. Por lo tanto, predecir la rotación requiere modelar la forma, hasta cierto punto.
Fig. 7: La forma del objeto puede ser invariable a las rotaciones. Fuente: Hendrycks et al. (NeurIPS 2019)
Hendrycks et al. utilizó la predicción de rotación como objetivo auxiliar a la par del objetivo supervisado. Curiosamente, descubrieron que la predicción de la rotación puede beneficiar la solidez frente a ejemplos adversarios, así como la corrupción de etiquetas y entradas. También beneficia la detección fuera de distribución supervisada. Sin embargo, este principio puede no ser cierto para otros objetos como las naranjas.
Hasta la fecha, no se ha aplicado ampliamente ninguna tarea de pretexto artesanal (es decir, repintar, armar rompecabezas, etc.), lo que nos lleva a la siguiente pregunta: ¿cuál es nuestra mejor oportunidad para aprender representaciones informativas?
La respuesta está en las arquitecturas de empotramiento de juntas autosupervisadas.
DINO: autodestilación combinada con Vision Transformers
A lo largo de los años, se ha desarrollado una plétora de arquitecturas de empotramiento conjunto. En esta publicación de blog, nos centraremos en el trabajo reciente de Caron et al. a saber, DINO.
Fig. 8: La arquitectura DINO. Fuente: Caron et al. .
Estos son los componentes más críticos de la literatura sobre el aprendizaje autosupervisado:
-
Se aplican fuertes transformaciones estocásticas (recorte, fluctuación, solarización, desenfoque) a cada imagen x para crear un par x1, x2 (las llamadas vistas).
-
Autodestilación: el maestro se construye a partir de iteraciones pasadas del estudiante, donde los pesos del maestro son un promedio móvil exponencial de los pesos del estudiante.
-
Se crean múltiples vistas para cada imagen, precisamente 8 locales (96×96) y 2 globales de cultivos (224×224)
Los componentes antes mencionados han sido explorados previamente por otros enfoques de incrustación conjunta. Entonces, ¿por qué DINO es tan importante?
Bueno, porque este fue el primer trabajo que mostró la intrigante propiedad de ViTs para aprender características específicas de la clase. Los trabajos anteriores se han centrado principalmente en ResNets.
Fig. 9: Fuente: Caron et al. .
Para esta visualización, los autores observaron la autoatención del token CLS en las cabezas de la última capa. Crucialmente, no se utilizan etiquetas durante el entrenamiento autosupervisado. Estos mapas demuestran que lo aprendido características específicas de la clase conducen a notables máscaras de segmentación no supervisadas y se correlacionan visiblemente con la forma de los objetos semánticos en las imágenes.
Con respecto a la robustez contradictoria, Bai et al. afirman que las ViT alcanzan una solidez similar en comparación con las CNN en la defensa contra ataques de adversarios basados en perturbaciones y ataques de adversarios basados en parches.
Por lo tanto, las redes neuronales siguen siendo bastante sensibles a la información de los píxeles. La razón sigue siendo la misma: los modelos entrenados se basan únicamente en la señal visual.
Una forma plausible de aprender más representaciones “abstractas” radica en incorporar datos emparejados de imagen y texto existentes en Internet sin depender explícitamente de anotadores humanos. Este es el llamado enfoque de supervisión del lenguaje natural, introducido por OpenAI.
Representaciones insensibles a los píxeles: supervisión del lenguaje natural
En CLIP , Radford et al. eliminó un conjunto de datos de descripción de texto de imagen de 400 millones de la web. En lugar de tener una sola etiqueta (por ejemplo, automóvil) y codificarla como un vector único, ahora tenemos una oración. Los subtítulos son probablemente más descriptivos que las meras etiquetas de clase.
La oración será procesada por un transformador de texto y se utilizará una representación agregada. De esta forma, proponen CLIP para entrenar conjuntamente al transformador de imagen y texto.
Figura 10: Fuente: Radford et al.
Dado que los nombres de las etiquetas están disponibles para el conjunto de datos descendente, se puede realizar una clasificación de tiro cero, aprovechando el transformador de texto y tomando el par imagen-texto con la máxima similitud.
Observe la solidez del modelo en comparación con una ResNet supervisada con respecto a las perturbaciones de datos (wrt) como los bocetos.
Figura 11: Fuente: Radford et al.
Dado que el modelo se entrenó con muchos más datos, es probable que se incluyeran bocetos en los datos extraídos de la web, así como leyendas de imágenes que son más descriptivas que las simples etiquetas de clase. Su precisión en ejemplos de adversarios naturales sigue siendo notable.
Insight: “La presencia de características que representan categorías conceptuales es otra consecuencia del entrenamiento CLIP” ~ Ghiasi et al. .
A diferencia de los ViT supervisados en los que las características detectan objetos únicos, los ViT entrenados por CLIP producen características en capas más profundas activadas por objetos en categorías conceptuales claramente discernibles. .
Fig. 12: Características de ViT entrenadas con CLIP que se relacionan con la categoría de morbilidad y música. Fuente: Ghiasi et al.
Dejo un): función activada por lo que se asemeja a calaveras junto a lápidas. Las siete imágenes restantes (con la activación más alta) incluyen otras clases semánticas como armas sangrientas, zombis y esqueletos. Estas clases tienen atributos muy diferentes en píxeles, lo que sugiere que la característica aprendida está ampliamente relacionada con el concepto abstracto de “morbilidad”. derecha (b): observamos que las características de la bola de discoteca están relacionadas con boomboxes, altavoces, un tocadiscos, un equipo de grabación de audio y un artista.
Los modelos CLIP crean así una organización de mayor nivel para los objetos que reconocen que los modelos supervisados estándar.
De la comparación anterior, no está claro si la precisión superior proviene de la arquitectura, el objetivo preentrenado o el conjunto de datos de entrenamiento ampliado. Colmillo et al. han demostrado a través de pruebas exhaustivas que las grandes ganancias de robustez son el resultado del gran conjunto de datos previo al entrenamiento. Precisamente:
“La solidez de CLIP está dominada por la elección de la distribución del entrenamiento, con otros factores jugando un papel pequeño o inexistente. Si bien la supervisión del idioma sigue siendo útil para ensamblar fácilmente conjuntos de capacitación, no es el principal impulsor de la solidez” ~ Fang et al. .
Ahora volvemos a las configuraciones supervisadas comunes.
Robustez de ViTs versus ResNets bajo múltiples perturbaciones
Google AI ha realizado extensos experimentos para estudiar el comportamiento de modelos entrenados supervisados bajo diferentes configuraciones de perturbación. En el ámbito supervisado estándar, Bhojanapalli et al. exploró cómo ViTs y ResNets se comportan en términos de su robustez frente a las perturbaciones de las entradas, así como a las perturbaciones basadas en modelos.
Fig. 13: Fuente: Bhojanapalli et al.
ILSVRC-2012 significa ImageNet, ImageNet-C es una versión corrupta de ImageNet e ImageNet-R incluye imágenes con cambios de distribución del mundo real. ImageNet-A consiste en ejemplos de adversarios naturales como se ilustra a continuación:
Fig. 14: Ejemplos de adversarios naturales de Dan Hendrycks et al. Fuente
Aquí, el texto negro es la clase real y el texto rojo es una predicción de ResNet-50 y su confianza.
Los hallazgos centrales de este estudio se resumen a continuación:
ViTs escala mejor con el modelo y el tamaño del conjunto de datos que ResNet. Más importante aún, la precisión del conjunto de validación estándar de ImageNet predice el rendimiento bajo varias perturbaciones de datos.
Robustez de ViT con perturbaciones basadas en modelos: Los autores notaron que además del primer bloque del transformador, uno puede quitar cualquier bloque individual, sin un deterioro sustancial del rendimiento. Además, eliminar las capas de autoatención duele más que eliminar las capas de MLP.
Robustez de ViT con tamaño de parche: Además, los ViT tienen una robustez diferente con respecto al tamaño de su parche. Precisamente, los autores encontraron que los tamaños de parche más pequeños hacen que los modelos ViT sean más robustos a las transformaciones espaciales (es decir, rotaciones), pero también aumentan su sesgo de textura (no deseable). Intuitivamente, un tamaño de parche de 1 descartaría toda la estructura espacial (imagen plana) mientras que un tamaño de parche cercano al tamaño de la imagen limitaría las representaciones de grano fino. Para Por ejemplo, varios objetos en el mismo parche tendrían el mismo vector de incrustación. El lenguaje natural aproximado equivalente a un tamaño de parche de 1 sería la codificación a nivel de caracteres. El tamaño de parche grande correspondería conceptualmente a la representación de múltiples oraciones con un solo vector de incrustación.
Robustez de ViT con autoatención global: Finalmente, restringir la atención propia para que sea local, en lugar de global, tiene un impacto relativamente pequeño en la precisión general.
Los resultados experimentales de este estudio son bastante convincentes, pero no dar ninguna explicacion lo que. Esto nos lleva al artículo de NeurIPS 2021 llamado “Intriguing properties of ViTs”.
Propiedades intrigantes de los transformadores de visión
En este excelente trabajo, Naseer et al. investigó las representaciones aprendidas de ViTs con mayor profundidad. A continuación se presentan las principales conclusiones:
1) Los ViT son muy resistente a las oclusionespermutaciones y turnos de distribución.
Fig. 15: Estudio de robustez frente a oclusiones. Fuente: Naseer et al. NeurIPS 2021
2) La robustez frente a las oclusiones es no debido al sesgo de textura. Las ViT están significativamente menos sesgadas hacia las texturas locales, en comparación con las CNN.
Figura 16: Fuente: Naseer et al. NeurIPS 2021
Este último hallazgo es consistente con un trabajo reciente que aplicó un filtro de paso bajo en las imágenes. . Las texturas son características de alta frecuencia, por lo que cuanto menor sea el umbral de paso bajo, menor será la frecuencia máxima.
Figura 17: Fuente: Ghiasi et al.
Las ResNet dependen más de la alta frecuencia (y probablemente de la información relacionada con la textura) que las ViT.
3) El uso de ViTs para codificar la representación basada en formas conduce a una consecuencia interesante de precisión segmentación semántica sin supervisión a nivel de píxel.
Figura 18: Fuente: Naseer et al. NeurIPS 2021
Segmentación automática de imágenes mediante el token CLS. Arriba: Modelo supervisado DeiT-S. Abajo: SIN (Stylized ImageNet) entrenó a DeiT-S.
Para hacer cumplir la representación basada en formas, utilizaron la destilación de conocimiento basada en tokens. En él, el modelo auxiliar tiene como objetivo hacer coincidir la salida de un ResNet preentrenado en SIN. La divergencia KL se utiliza como pérdida por destilación.
Fig. 19: Destilación basada en fichas con ViTs. Fuente: Naseer et al. NeurIPS 2021
Las máscaras de segmentación de fondo emergentes son bastante similares a DINO. Este hecho indica que tanto DINO como el ViT destilado en forma (DeiT) aprenden representaciones basadas en formas.
4) Las características de ViT aprendidas de múltiples las capas de atención (tokens CLS) se pueden combinar para crear un conjunto de característicaslo que conduce a altas tasas de precisión en una variedad de conjuntos de datos de clasificación.
Fig. 20: Top-1 (%) para ImageNet val. establecido para tokens de clase producidos por cada bloque ViT. Fuente: Naseer et al. NeurIPS 2021
Top-1 (%) para el conjunto de validación de ImageNet para tokens CLS producidos por cada bloque ViT.
“Los tokens de clase de las últimas capas exhiben el rendimiento más alto, lo que indica los tokens más discriminatorios”. ~Naseer et al.
5) Las características de ViT se generalizan mejor que las CNN consideradas. De manera crucial, la robustez y superioridad de las características de ViT se pueden atribuir a los campos receptivos flexibles y dinámicos que probablemente se originan en el mecanismo de autoatención.
Fig. 21: Las características de ViT son más transferibles. Fuente: Naseer et al. NeurIPS 2021
Finalmente, presentamos un trabajo concurrente a que estudió la robustez de ViT.
Los transformadores de visión son aprendices robustos
Sayak Paul y Pin-Yu Chen investigó la solidez de ViTs contra: a) corrupciones, b) perturbaciones, c) cambios de distribución y d) ejemplos adversarios naturales. Más importante aún, utilizaron una línea de base basada en CNN más fuerte llamada BiT . Los resultados centrales son los siguientes:
-
Un programa de preentrenamiento más largo y un conjunto de datos de preentrenamiento más grande mejoran la solidez (en línea con ).
-
La atención es clave para la robustez, lo cual es consistente con todos los trabajos presentados.
-
Los ViT tienen una mejor robustez a las oclusiones (enmascaramiento de imágenes, etc.) como se muestra en .
-
Los ViT tienen un panorama de pérdida más suave para las perturbaciones de entrada (ver más abajo).
Fig. 22: Progresión de pérdida (media y desviación estándar) ViT-L/16 y BiT bajo diferentes ataques adversarios de PGD
Conclusiones principales
Para concluir, aquí hay una breve lista de los puntos más críticos de esta publicación de blog:
-
Las ViT escalan mejor con el modelo y el tamaño del conjunto de datos que las CNN.
-
Las CNN preentrenadas de ImageNet están sesgadas hacia la textura.
-
Las representaciones basadas en formas son más resistentes a la generalización fuera de distribución (más transferibles) en comparación con las basadas en texturas.
-
Las ViT están significativamente menos sesgadas hacia las texturas locales que las CNN.
-
Los ViT son igualmente malos para los ataques de adversarios y los ejemplos de adversarios naturales como las CNN.
-
Los ViT son muy resistentes a las oclusiones, las permutaciones y los cambios de distribución.
-
Los ViT entrenados con destilación basada en formas o aprendizaje autosupervisado (DINO) conducen a representaciones que codifican implícitamente el primer plano (mapas de segmentación de fondo).
-
Las ViT logran una generalización fuera de distribución superior a las CNN.
Si encuentra nuestro trabajo interesante, puede citarnos de la siguiente manera:
@article
Alternativamente, apóyenos compartiendo este artículo en las redes sociales. ¡Se siente extremadamente gratificante y realmente lo apreciamos! Como siempre, gracias por su interés en el aprendizaje profundo y la IA.
Referencias
* Divulgación: tenga en cuenta que algunos de los enlaces anteriores pueden ser enlaces de afiliados y, sin costo adicional para usted, ganaremos una comisión si decide realizar una compra después de hacer clic.