microsoft/swin-base-patch4-window12-384-in22k

microsoft
Clasificación de imagen

El modelo Swin Transformer está preentrenado en ImageNet-21k (14 millones de imágenes, 21,841 clases) a una resolución de 384x384. Fue introducido en el artículo Swin Transformer: Hierarchical Vision Transformer using Shifted Windows por Liu et al. y fue lanzado en este repositorio. Es un tipo de Vision Transformer que construye mapas de características jerárquicos fusionando parches de imágenes (mostrados en gris) en capas más profundas y tiene una complejidad computacional lineal con respecto al tamaño de la imagen de entrada debido al cálculo de autoatención solo dentro de cada ventana local (mostradas en rojo). Por lo tanto, puede servir como una columna vertebral de propósito general tanto para la clasificación de imágenes como para tareas de reconocimiento denso. En contraste, los Transformers de visión anteriores producen mapas de características de una única baja resolución y tienen una complejidad computacional cuadrática con respecto al tamaño de la imagen de entrada debido al cálculo de autoatención a nivel global.

Como usar

Aquí se explica cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:

from transformers import AutoFeatureExtractor, SwinForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/swin-base-patch4-window12-384-in22k")
model = SwinForImageClassification.from_pretrained("microsoft/swin-base-patch4-window12-384-in22k")

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])

Para más ejemplos de código, consulte la documentación.

Funcionalidades

Transformer jerárquico
Resolución 384x384
Funcionalidad de autoatención local
Complejidad computacional lineal

Casos de uso

Clasificación de imágenes
Tareas de reconocimiento denso