MobileViT (modelo de tamaño pequeño)
El modelo MobileViT preentrenado en ImageNet-1k a una resolución de 256x256. Fue introducido en el documento 'MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer' por Sachin Mehta y Mohammad Rastegari, y lanzado por primera vez en este repositorio. MobileViT es una red neuronal convolucional ligera y de baja latencia que combina capas al estilo de MobileNetV2 con un nuevo bloque que reemplaza el procesamiento local en las convoluciones con procesamiento global utilizando transformadores. Al igual que ViT (Vision Transformer), los datos de imagen se convierten en parches aplanados antes de ser procesados por las capas de transformadores. Después, los parches se 'desaplanan' de nuevo en mapas de características. Esto permite que el bloque MobileViT se pueda colocar en cualquier lugar dentro de una CNN. MobileViT no requiere incrustaciones posicionales.
Como usar
Aquí está cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import MobileViTFeatureExtractor, MobileViTForImageClassification
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = MobileViTFeatureExtractor.from_pretrained("apple/mobilevit-small")
model = MobileViTForImageClassification.from_pretrained("apple/mobilevit-small")
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])
Actualmente, tanto el extractor de características como el modelo soportan PyTorch.
Funcionalidades
- Modelo preentrenado en ImageNet-1k
- Resolución de 256x256
- Combina capas al estilo MobileNetV2 con transformadores
- No requiere incrustaciones posicionales
- Baja latencia
Casos de uso
- Clasificación de imágenes