SwiftFormer (swiftformer-xs)

MBZUAI

Clasificación de imagen

El modelo SwiftFormer fue propuesto en el artículo 'SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications' por Abdelrahman Shaker, Muhammad Maaz, Hanoona Rasheed, Salman Khan, Ming-Hsuan Yang, Fahad Shahbaz Khan. El artículo de SwiftFormer introduce un nuevo mecanismo eficiente de atención aditiva que reemplaza eficazmente las operaciones de multiplicación de matrices cuadráticas en el cálculo de autoatención con multiplicaciones lineales elemento a elemento. Se construye una serie de modelos llamada 'SwiftFormer' basada en esto, que logra un rendimiento de última generación en términos de precisión y velocidad de inferencia móvil. Incluso su variante pequeña logra un 78.5% de precisión top-1 en ImageNet-1K con solo 0.8 ms de latencia en un iPhone 14, lo cual es más preciso y 2× más rápido en comparación con MobileViT-v2.

Como usar

import requests
from PIL import Image

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

from transformers import ViTImageProcessor
processor = ViTImageProcessor.from_pretrained('shehan97/swiftformer-xs')
inputs = processor(images=image, return_tensors="pt")


from transformers.models.swiftformer import SwiftFormerForImageClassification
new_model = SwiftFormerForImageClassification.from_pretrained('shehan97/swiftformer-xs')

output = new_model(inputs['pixel_values'], output_hidden_states=True)
logits = output.logits
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", new_model.config.id2label[predicted_class_idx])

Funcionalidades

Clasificación de imágenes
Transformadores
PyTorch
Safetensors
ImageNet-1K
Inferencia en tiempo real móvil

Casos de uso

Clasificación de imágenes
Aplicaciones de visión móvil en tiempo real