microsoft/swin-small-patch4-window7-224

microsoft

Clasificación de imagen

Modelo Swin Transformer (tamaño pequeño) entrenado en ImageNet-1k a una resolución de 224x224. Fue introducido en el artículo Swin Transformer: Hierarchical Vision Transformer using Shifted Windows por Liu et al. y lanzado por primera vez en este repositorio. El equipo que lanzó Swin Transformer no escribió una tarjeta de modelo para este modelo, por lo que esta tarjeta de modelo ha sido escrita por el equipo de Hugging Face. El Swin Transformer es un tipo de Transformer de Visión. Construye mapas de características jerárquicas fusionando parches de imágenes en capas más profundas y tiene una complejidad computacional lineal con respecto al tamaño de la imagen de entrada debido al cálculo de la atención propia solo dentro de cada ventana local. Por lo tanto, puede servir como una columna vertebral de propósito general tanto para tareas de clasificación de imágenes como para tareas de reconocimiento denso. En contraste, los Transformers de visión anteriores producen mapas de características de una sola resolución baja y tienen una complejidad computacional cuadrática con respecto al tamaño de la imagen de entrada debido al cálculo de la atención propia de manera global.

Como usar

Aquí se explica cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoFeatureExtractor, SwinForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/swin-small-patch4-window7-224")
model = SwinForImageClassification.from_pretrained("microsoft/swin-small-patch4-window7-224")

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])

Funcionalidades

Transformador de visión jerárquico
Fusión de parches de imagen en capas más profundas
Atenuación propia calculada dentro de cada ventana local

Casos de uso

Clasificación de imágenes