google/vit-hybrid-base-bit-384
El modelo híbrido Vision Transformer (ViT) fue propuesto en 'Una imagen vale 16x16 palabras: Transformadores para el reconocimiento de imágenes a gran escala' por Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby. Es el primer artículo que entrena exitosamente un codificador Transformer en ImageNet, logrando muy buenos resultados en comparación con arquitecturas convolucionales familiares. ViT híbrido es una variante ligera del Vision Transformer plain, utilizando una base convolucional (específicamente, BiT) cuyas características se utilizan como 'tokens' iniciales para el Transformer. Mientras que la arquitectura Transformer se ha convertido en el estándar de facto para tareas de procesamiento del lenguaje natural, sus aplicaciones en visión por computador siguen siendo limitadas. En visión, la atención se aplica junto con redes convolucionales o se utiliza para reemplazar ciertos componentes de las redes convolucionales, manteniendo su estructura general.
Como usar
Aquí está cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import ViTHybridImageProcessor, ViTHybridForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = ViTHybridImageProcessor.from_pretrained('google/vit-hybrid-base-bit-384')
model = ViTHybridForImageClassification.from_pretrained('google/vit-hybrid-base-bit-384')
inputs = feature_extractor(images=image, return_tensors='pt')
outputs = model(**inputs)
logits = outputs.logits
# El modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print('Predicted class:', model.config.id2label[predicted_class_idx])
Para más ejemplos de código, consulte la documentación.
Funcionalidades
- Clasificación de imágenes
- Transformers
- PyTorch
- Safetensors
- Imagenet-1k
- Vit-hybrid
- Vision
Casos de uso
- Clasificación de imágenes utilizando imágenes de entrada clasificadas en categorías previamente definidas
- Reconocimiento y procesamiento de imágenes a gran escala
- Transferencia a benchmarks de reconocimiento de imágenes de tamaño pequeño o mediano