google/vit-hybrid-base-bit-384

google
Clasificación de imagen

El modelo híbrido Vision Transformer (ViT) fue propuesto en 'Una imagen vale 16x16 palabras: Transformadores para el reconocimiento de imágenes a gran escala' por Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby. Es el primer artículo que entrena exitosamente un codificador Transformer en ImageNet, logrando muy buenos resultados en comparación con arquitecturas convolucionales familiares. ViT híbrido es una variante ligera del Vision Transformer plain, utilizando una base convolucional (específicamente, BiT) cuyas características se utilizan como 'tokens' iniciales para el Transformer. Mientras que la arquitectura Transformer se ha convertido en el estándar de facto para tareas de procesamiento del lenguaje natural, sus aplicaciones en visión por computador siguen siendo limitadas. En visión, la atención se aplica junto con redes convolucionales o se utiliza para reemplazar ciertos componentes de las redes convolucionales, manteniendo su estructura general.

Como usar

Aquí está cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:

from transformers import ViTHybridImageProcessor, ViTHybridForImageClassification
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = ViTHybridImageProcessor.from_pretrained('google/vit-hybrid-base-bit-384')
model = ViTHybridForImageClassification.from_pretrained('google/vit-hybrid-base-bit-384')

inputs = feature_extractor(images=image, return_tensors='pt')
outputs = model(**inputs)
logits = outputs.logits
# El modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print('Predicted class:', model.config.id2label[predicted_class_idx])

Para más ejemplos de código, consulte la documentación.

Funcionalidades

Clasificación de imágenes
Transformers
PyTorch
Safetensors
Imagenet-1k
Vit-hybrid
Vision

Casos de uso

Clasificación de imágenes utilizando imágenes de entrada clasificadas en categorías previamente definidas
Reconocimiento y procesamiento de imágenes a gran escala
Transferencia a benchmarks de reconocimiento de imágenes de tamaño pequeño o mediano