microsoft/swin-base-patch4-window7-224-in22k

microsoft
Clasificación de imagen

El modelo Swin Transformer (de tamaño grande) pre-entrenado en ImageNet-21k (14 millones de imágenes, 21,841 clases) a una resolución de 224x224. Fue presentado en el artículo 'Swin Transformer: Hierarchical Vision Transformer using Shifted Windows' por Liu et al. y primero fue publicado en este repositorio. El Swin Transformer es un tipo de Transformer de Visión. Construye mapas de características jerárquicos mediante la fusión de parches de imágenes (mostrados en gris) en capas más profundas y tiene una complejidad de cálculo lineal con respecto al tamaño de la imagen de entrada debido al cálculo de la autoatención solo dentro de cada ventana local (mostrada en rojo). Por lo tanto, puede servir como una columna vertebral de propósito general para tareas tanto de clasificación de imágenes como de reconocimiento denso. En contraste, los transformadores de visión anteriores producen mapas de características de una sola baja resolución y tienen una complejidad de cálculo cuadrática con respecto al tamaño de la imagen de entrada debido al cálculo de la autoatención a nivel global.

Como usar

Aquí tienes cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:

from transformers import AutoImageProcessor, SwinForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swin-base-patch4-window7-224-in22k")
model = SwinForImageClassification.from_pretrained("microsoft/swin-base-patch4-window7-224-in22k")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])

Para más ejemplos de código, consulte la documentación.

Funcionalidades

Modelo Transformer de Visión
Mapas de características jerárquicos
Complejidad de cálculo lineal con la imagen de entrada
Autoatención dentro de ventanas locales

Casos de uso

Clasificación de imágenes
Reconocimiento denso