ConvNeXT (modelo grande) preentrenado en ImageNet-22k y ajustado en ImageNet-1k
facebook
Clasificación de imagen
ConvNeXT es un modelo puramente convolucional (ConvNet), inspirado en el diseño de los Vision Transformers, que afirma superarlos en rendimiento. Los autores partieron de una ResNet y 'modernizaron' su diseño tomando como inspiración el Swin Transformer. El modelo se presentó en el artículo 'A ConvNet for the 2020s' de Liu et al. y se lanzó por primera vez en este repositorio.
Como usar
Aquí está cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import ConvNextImageProcessor, ConvNextForImageClassification
import torch
from datasets import load_dataset
dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]
processor = ConvNextImageProcessor.from_pretrained("facebook/convnext-large-224-22k-1k")
model = ConvNextForImageClassification.from_pretrained("facebook/convnext-large-224-22k-1k")
inputs = processor(image, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
# el modelo predice una de las 1k clases de ImageNet
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])
Para más ejemplos de código, nos referimos a la documentación.
Funcionalidades
- Modelo puramente convolucional (ConvNet)
- Inspirado en el diseño de los Vision Transformers
- Supera a los Vision Transformers en rendimiento
- Partió de una ResNet
- Diseño modernizado tomando como inspiración el Swin Transformer
Casos de uso
- Clasificación de imágenes