microsoft/swin-large-patch4-window12-384

microsoft
Clasificación de imagen

El modelo Swin Transformer es un tipo de Transformer de Visión. Construye mapas de características jerárquicos fusionando parches de imágenes (mostrados en gris) en capas más profundas y tiene una complejidad de cálculo lineal con respecto al tamaño de la imagen de entrada debido al cálculo de la autoatención solo dentro de cada ventana local (mostradas en rojo). Por lo tanto, puede servir como una columna vertebral de propósito general tanto para la clasificación de imágenes como para tareas de reconocimiento denso. En contraste, los Transformers de visión anteriores producen mapas de características de una sola resolución baja y tienen una complejidad de cálculo cuadrática con respecto al tamaño de la imagen de entrada debido al cálculo de la autoatención global.

Como usar

from transformers import AutoFeatureExtractor, SwinForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/swin-large-patch4-window12-384")
model = SwinForImageClassification.from_pretrained("microsoft/swin-large-patch4-window12-3844")

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])

Funcionalidades

Construcción de mapas de características jerárquicos
Fusión de parches de imágenes en capas más profundas
Complejidad de cálculo lineal con respecto al tamaño de la imagen de entrada
Uso de ventanas locales para el cálculo de la autoatención

Casos de uso

Clasificación de imágenes
Tareas de reconocimiento denso