microsoft/cvt-21-384-22k
microsoft
Clasificación de imagen
El modelo CvT-21 preentrenado en ImageNet-22k y ajustado en ImageNet-1k con una resolución de 384x384. Fue introducido en el artículo 'CvT: Introducing Convolutions to Vision Transformers' por Wu et al. y liberado por primera vez en este repositorio. Nota: El equipo que liberó CvT no escribió una tarjeta de modelo para este modelo, así que esta tarjeta ha sido escrita por el equipo de Hugging Face.
Como usar
Aquí se muestra cómo utilizar este modelo para clasificar una imagen del dataset COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoFeatureExtractor, CvtForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained('microsoft/cvt-21-384-22k')
model = CvtForImageClassification.from_pretrained('microsoft/cvt-21-384-22k')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])
Funcionalidades
- Clasificación de imágenes
- Transformadores de visión
- Compatibilidad con PyTorch y TensorFlow
- Preentrenado en ImageNet-22k
- Ajustado en ImageNet-1k
- Resolución de 384x384
Casos de uso
- Clasificación de imágenes en datasets grandes como ImageNet
- Desarrollo de aplicaciones de visión por computadora
- Investigación en arquitecturas avanzadas de transformadores de visión