Data2Vec-Vision (modelo de tamaño medio, afinado en ImageNet-1k)

facebook

Clasificación de imagen

Modelo BEiT preentrenado de manera auto-supervisada y afinado en ImageNet-1k (1,2 millones de imágenes, 1000 clases) a una resolución de 224x224. Se introdujo en el artículo 'data2vec: Un Marco General para el Aprendizaje Auto-Supervisado en Habla, Visión y Lenguaje' por Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli y se liberó por primera vez en este repositorio. Disclaimer: El equipo de Facebook que lo lanzó no escribió una tarjeta de modelo para este modelo, por lo que esta tarjeta de modelo ha sido escrita por el equipo de Hugging Face.

Como usar

Aquí está cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1000 clases de ImageNet:
from transformers import BeitFeatureExtractor, Data2VecVisionForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = BeitFeatureExtractor.from_pretrained('facebook/data2vec-vision-base-ft1k')
model = Data2VecVisionForImageClassification.from_pretrained('facebook/data2vec-vision-base-ft1k')
inputs = feature_extractor(images=image, return_tensors='pt')
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print('Clase predicha:', model.config.id2label[predicted_class_idx])

Actualmente, tanto el extractor de características como el modelo son compatibles con PyTorch.

Funcionalidades

Clasificación de imágenes
Transformers
PyTorch
TensorFlow

Casos de uso

Clasificación de imágenes