microsoft/swin-base-patch4-window12-384-in22k
El modelo Swin Transformer está preentrenado en ImageNet-21k (14 millones de imágenes, 21,841 clases) a una resolución de 384x384. Fue introducido en el artículo Swin Transformer: Hierarchical Vision Transformer using Shifted Windows por Liu et al. y fue lanzado en este repositorio. Es un tipo de Vision Transformer que construye mapas de características jerárquicos fusionando parches de imágenes (mostrados en gris) en capas más profundas y tiene una complejidad computacional lineal con respecto al tamaño de la imagen de entrada debido al cálculo de autoatención solo dentro de cada ventana local (mostradas en rojo). Por lo tanto, puede servir como una columna vertebral de propósito general tanto para la clasificación de imágenes como para tareas de reconocimiento denso. En contraste, los Transformers de visión anteriores producen mapas de características de una única baja resolución y tienen una complejidad computacional cuadrática con respecto al tamaño de la imagen de entrada debido al cálculo de autoatención a nivel global.
Como usar
Aquí se explica cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoFeatureExtractor, SwinForImageClassification
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/swin-base-patch4-window12-384-in22k")
model = SwinForImageClassification.from_pretrained("microsoft/swin-base-patch4-window12-384-in22k")
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])
Para más ejemplos de código, consulte la documentación.
Funcionalidades
- Transformer jerárquico
- Resolución 384x384
- Funcionalidad de autoatención local
- Complejidad computacional lineal
Casos de uso
- Clasificación de imágenes
- Tareas de reconocimiento denso