microsoft/swin-tiny-patch4-window7-224
El modelo Swin Transformer está entrenado en ImageNet-1k a una resolución de 224x224. Fue introducido en el artículo 'Swin Transformer: Hierarchical Vision Transformer using Shifted Windows' por Liu et al. y se lanzó por primera vez en este repositorio. El Swin Transformer es un tipo de Transformer de Visión. Construye mapas de características jerárquicos al fusionar parches de imagen en capas más profundas y tiene una complejidad de computación lineal relativa al tamaño de la imagen de entrada debido a la computación de self-attention solo dentro de cada ventana local. Puede servir como una columna vertebral de propósito general para tareas de clasificación de imágenes y reconocimiento denso.
Como usar
Aquí se explica cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
model = AutoModelForImageClassification.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
Para más ejemplos de código, consulte la documentación.
Funcionalidades
- Construye mapas de características jerárquicos
- Computación de self-attention dentro de ventanas locales
- Complejidad de computación lineal relativa al tamaño de la imagen de entrada
Casos de uso
- Clasificación de imágenes
- Reconocimiento denso