microsoft/swin-tiny-patch4-window7-224

microsoft

Clasificación de imagen

El modelo Swin Transformer está entrenado en ImageNet-1k a una resolución de 224x224. Fue introducido en el artículo 'Swin Transformer: Hierarchical Vision Transformer using Shifted Windows' por Liu et al. y se lanzó por primera vez en este repositorio. El Swin Transformer es un tipo de Transformer de Visión. Construye mapas de características jerárquicos al fusionar parches de imagen en capas más profundas y tiene una complejidad de computación lineal relativa al tamaño de la imagen de entrada debido a la computación de self-attention solo dentro de cada ventana local. Puede servir como una columna vertebral de propósito general para tareas de clasificación de imágenes y reconocimiento denso.

Como usar

Aquí se explica cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
model = AutoModelForImageClassification.from_pretrained("microsoft/swin-tiny-patch4-window7-224")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

Para más ejemplos de código, consulte la documentación.

Funcionalidades

Construye mapas de características jerárquicos
Computación de self-attention dentro de ventanas locales
Complejidad de computación lineal relativa al tamaño de la imagen de entrada

Casos de uso

Clasificación de imágenes
Reconocimiento denso