microsoft/swin-large-patch4-window7-224
El modelo Swin Transformer es un tipo de Transformer de Visión. Construye mapas de características jerárquicas al combinar parches de imagen (mostrados en gris) en capas más profundas y tiene una complejidad de cálculo lineal con respecto al tamaño de la imagen de entrada debido al cálculo de autoatención solo dentro de cada ventana local (mostrado en rojo). Por lo tanto, puede servir como una columna vertebral de propósito general tanto para la clasificación de imágenes como para tareas de reconocimiento denso. En contraste, los Transformadores de visión anteriores producen mapas de características de una sola baja resolución y tienen una complejidad de cálculo cuadrático con respecto al tamaño de la imagen de entrada debido al cálculo de autoatención global.
Como usar
from transformers import AutoFeatureExtractor, SwinForImageClassification
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/swin-large-patch4-window7-224")
model = SwinForImageClassification.from_pretrained("microsoft/swin-large-patch4-window7-224")
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])
Funcionalidades
- Transformador de Visión jerárquico
- Construcción de mapas de características jerárquicas
- Complejidad de cálculo lineal
- Cálculo de autoatención dentro de ventanas locales
Casos de uso
- Clasificación de imágenes
- Tareas de reconocimiento denso