microsoft/swin-base-patch4-window7-224

microsoft

Clasificación de imagen

El Swin Transformer es un tipo de Transformer de Visión. Construye mapas de características jerárquicas al fusionar parches de imágenes (mostrados en gris) en capas más profundas y tiene una complejidad de computación lineal respecto al tamaño de la imagen de entrada debido a la computación de la autoatención solo dentro de cada ventana local (mostrada en rojo). Así, puede servir como una columna vertebral de propósito general tanto para la clasificación de imágenes como para tareas de reconocimiento denso. En contraste, los Transformers de visión anteriores producen mapas de características de una única resolución baja y tienen una complejidad de computación cuadrática respecto al tamaño de la imagen de entrada debido a la computación de la autoatención de manera global. El modelo Swin Transformer fue entrenado en ImageNet-1k a una resolución de 224x224. Fue introducido en el artículo Swin Transformer: Hierarchical Vision Transformer using Shifted Windows por Liu et al. y fue lanzado por primera vez en este repositorio. Descargo de responsabilidad: El equipo que lanzó Swin Transformer no escribió una tarjeta de modelo para este modelo, por lo que esta tarjeta de modelo ha sido escrita por el equipo de Hugging Face.

Como usar

Aquí se muestra cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases ImageNet:
from transformers import AutoFeatureExtractor, SwinForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/swin-base-patch4-window7-224")
model = SwinForImageClassification.from_pretrained("microsoft/swin-base-patch4-window7-224")

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])

Funcionalidades

Mapa de características jerárquicas
Fusión de parches de imágenes
Complejidad de computación lineal
Columna vertebral de propósito general para clasificación de imágenes y reconocimiento denso

Casos de uso

Clasificación de imágenes
Tareas de reconocimiento denso