microsoft/swin-base-patch4-window12-384

microsoft

Clasificación de imagen

El modelo Swin Transformer es un tipo de transformador de visión. Construye mapas de características jerárquicos mediante la combinación de parches de imagen (mostrados en gris) en capas más profundas y tiene una complejidad de cálculo lineal con respecto al tamaño de la imagen de entrada debido al cálculo de autoatención solo dentro de cada ventana local (mostrada en rojo). Por lo tanto, puede servir como una columna vertebral de propósito general tanto para tareas de clasificación de imágenes como de reconocimiento denso. En contraste, los transformadores de visión anteriores producen mapas de características de una sola resolución baja y tienen una complejidad cuadrática de cálculo con respecto al tamaño de la imagen de entrada debido al cálculo de autoatención global.

Como usar

Aquí se muestra cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoFeatureExtractor, SwinForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/swin-base-patch4-window12-384")
model = SwinForImageClassification.from_pretrained("microsoft/swin-base-patch4-window12-384")

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

Para más ejemplos de código, nos referimos a la documentación.

Funcionalidades

Transformador de visión jerárquico
Combina parches de imagen en capas más profundas
Complejidad de cálculo lineal
Capacidad de autoatención dentro de ventanas locales
Sirve como columna vertebral de propósito general

Casos de uso

Clasificación de imágenes
Reconocimiento denso de imágenes