facebook/convnext-base-384-22k-1k
facebook
Clasificación de imagen
Modelo ConvNeXT preentrenado en ImageNet-22k y afinado en ImageNet-1k a una resolución de 384x384. Fue introducido en el artículo 'A ConvNet for the 2020s' por Liu et al. y lanzado por primera vez en este repositorio. ConvNeXT es un modelo puramente convolucional (ConvNet), inspirado en el diseño de Vision Transformers, que afirma superarlos en rendimiento. Los autores comenzaron con un ResNet y 'modernizaron' su diseño tomando como inspiración el Swin Transformer.
Como usar
Aquí está cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import ConvNextImageProcessor, ConvNextForImageClassification
import torch
from datasets import load_dataset
dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]
processor = ConvNextImageProcessor.from_pretrained("facebook/convnext-base-384-22k-1k")
model = ConvNextForImageClassification.from_pretrained("facebook/convnext-base-384-22k-1k")
inputs = processor(image, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])
Para más ejemplos de código, consulta la documentación.
Funcionalidades
- Modelo puramente convolucional inspirado en Vision Transformers
- Supera en rendimiento a los Vision Transformers
- Inicialmente basado en ResNet con diseño modernizado
- Preentrenado en ImageNet-22k
- Afinado en ImageNet-1k
- Resolución de imagen de 384x384
Casos de uso
- Clasificación de imágenes en una de las 1,000 clases de ImageNet