microsoft/cvt-13
microsoft
Clasificación de imagen
CvT-13 es un modelo preentrenado en ImageNet-1k a una resolución de 224x224. Fue introducido en el artículo CvT: Introducing Convolutions to Vision Transformers por Wu et al. y fue lanzado inicialmente en este repositorio. Este modelo pertenece a la categoría de los Transformers de visión con convolución (CvT).
Como usar
Aquí se muestra cómo usar este modelo para clasificar una imagen del dataset COCO 2017 en una de las 1000 clases de ImageNet:
from transformers import AutoFeatureExtractor, CvtForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained('microsoft/cvt-13')
model = CvtForImageClassification.from_pretrained('microsoft/cvt-13')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
Funcionalidades
- Clasificación de imágenes
- Uso de Transformers con convolución
- Preentrenado en ImageNet-1k a resolución 224x224
- Implementación en PyTorch
- Compatible con TensorFlow
- Licencia Apache-2.0
Casos de uso
- Clasificación de imágenes en conjuntos de datos grandes como ImageNet
- Desarrollo de aplicaciones de visión por computadora
- Investigación en Transformers de visión con convolución
- Optimización de redes neuronales convolucionales