MobileViTv2 (mobilevitv2-1.0-imagenet1k-256)
apple
Clasificación de imagen
MobileViTv2 es la segunda versión de MobileViT. Fue propuesto en 'Separable Self-attention for Mobile Vision Transformers' por Sachin Mehta y Mohammad Rastegari y fue lanzado por primera vez en este repositorio. MobileViTv2 se construyó reemplazando la auto-atención de múltiples cabezas en MobileViT con auto-atención separable. La licencia utilizada es la licencia de código de muestra de Apple.
Como usar
Aquí está cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import MobileViTImageProcessor, MobileViTV2ForImageClassification
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = MobileViTImageProcessor.from_pretrained("shehan97/mobilevitv2-1.0-imagenet1k-256")
model = MobileViTV2ForImageClassification.from_pretrained("shehan97/mobilevitv2-1.0-imagenet1k-256")
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])
Funcionalidades
- Clasificación de imágenes
- Transformers
- Soporte para PyTorch
- Atención separable
Casos de uso
- Clasificación de imágenes