microsoft/cvt-w24-384-22k
microsoft
Clasificación de imagen
El modelo CvT-w24, preentrenado en ImageNet-22k y ajustado en ImageNet-1k a una resolución de 384x384. Fue introducido en el artículo CvT: Introducing Convolutions to Vision Transformers por Wu et al. y publicado por primera vez en este repositorio. El equipo que lanzó CvT no escribió una tarjeta del modelo para este modelo, por lo que esta tarjeta del modelo ha sido escrita por el equipo de Hugging Face.
Como usar
Aquí se explica cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoFeatureExtractor, CvtForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained('microsoft/cvt-w24-384-22k')
model = CvtForImageClassification.from_pretrained('microsoft/cvt-w24-384-22k')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# El modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])
Funcionalidades
- Clasificación de imágenes
- Transformers
- PyTorch
- TensorFlow
- Imagenet-1k
- Visión por computadora
- Puntos finales de inferencia
Casos de uso
- Clasificación de imágenes en el conjunto de datos COCO 2017
- Clasificación de imágenes en 1,000 clases de ImageNet