LeViT-128S

facebook

Clasificación de imagen

Modelo LeViT-128S preentrenado en ImageNet-1k a una resolución de 224x224. Fue introducido en el artículo LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference por Graham et al., y lanzado por primera vez en este repositorio. La tarjeta del modelo ha sido escrita por el equipo de Hugging Face.

Como usar

Aquí está cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import LevitFeatureExtractor, LevitForImageClassificationWithTeacher
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = LevitFeatureExtractor.from_pretrained('facebook/levit-128S')
model = LevitForImageClassificationWithTeacher.from_pretrained('facebook/levit-128S')

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

Funcionalidades

Clasificación de imágenes
Utiliza Transformers
Basado en PyTorch
Compatibilidad con Safetensors
Entrenado en el conjunto de datos ImageNet-1k
Funcionalidades de Inferencia

Casos de uso

Clasificación de imágenes
Reconocimiento de objetos
Aplicaciones en moda para la clasificación de ropa