microsoft/swin-base-patch4-window7-224-in22k
El modelo Swin Transformer (de tamaño grande) pre-entrenado en ImageNet-21k (14 millones de imágenes, 21,841 clases) a una resolución de 224x224. Fue presentado en el artículo 'Swin Transformer: Hierarchical Vision Transformer using Shifted Windows' por Liu et al. y primero fue publicado en este repositorio. El Swin Transformer es un tipo de Transformer de Visión. Construye mapas de características jerárquicos mediante la fusión de parches de imágenes (mostrados en gris) en capas más profundas y tiene una complejidad de cálculo lineal con respecto al tamaño de la imagen de entrada debido al cálculo de la autoatención solo dentro de cada ventana local (mostrada en rojo). Por lo tanto, puede servir como una columna vertebral de propósito general para tareas tanto de clasificación de imágenes como de reconocimiento denso. En contraste, los transformadores de visión anteriores producen mapas de características de una sola baja resolución y tienen una complejidad de cálculo cuadrática con respecto al tamaño de la imagen de entrada debido al cálculo de la autoatención a nivel global.
Como usar
Aquí tienes cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoImageProcessor, SwinForImageClassification
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained("microsoft/swin-base-patch4-window7-224-in22k")
model = SwinForImageClassification.from_pretrained("microsoft/swin-base-patch4-window7-224-in22k")
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])
Para más ejemplos de código, consulte la documentación.
Funcionalidades
- Modelo Transformer de Visión
- Mapas de características jerárquicos
- Complejidad de cálculo lineal con la imagen de entrada
- Autoatención dentro de ventanas locales
Casos de uso
- Clasificación de imágenes
- Reconocimiento denso