Swin Transformer v2 (modelo pequeño)

microsoft

Clasificación de imagen

El modelo Swin Transformer v2 está preentrenado en ImageNet-1k a una resolución de 256x256. Fue introducido en el artículo Swin Transformer V2: Scaling Up Capacity and Resolution por Liu et al. y se lanzó por primera vez en este repositorio. El Swin Transformer es un tipo de Vision Transformer. Crea mapas de características jerárquicos fusionando parches de imágenes (mostrados en gris) en capas más profundas y tiene complejidad de computación lineal al tamaño de la imagen de entrada debido a la computación de autoatención solo dentro de cada ventana local (mostrada en rojo). Por lo tanto, puede servir como una columna vertebral de propósito general tanto para la clasificación de imágenes como para tareas de reconocimiento denso. En contraste, los Transformers de visión anteriores producen mapas de características de una sola resolución baja y tienen una complejidad de computación cuadrática al tamaño de la imagen de entrada debido a la computación de autoatención global.

Como usar

Aquí se muestra cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-tiny-patch4-window16-256")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-tiny-patch4-window16-256")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

Funcionalidades

Método residual-post-norm combinado con atención cosenoidal para mejorar la estabilidad del entrenamiento
Método de sesgo de posición continua espaciado logarítmicamente para transferir efectivamente modelos preentrenados usando imágenes de baja resolución a tareas posteriores con entradas de alta resolución
Método de preentrenamiento auto-supervisado, SimMIM, para reducir la necesidad de vastas imágenes etiquetadas

Casos de uso

Clasificación de imágenes