facebook/convnext-small-224
ConvNeXT es un modelo puramente convolucional (ConvNet), inspirado en el diseño de los Transformers de Visión, que afirma superarlos. Los autores comenzaron desde un ResNet y 'modernizaron' su diseño tomando como inspiración el Swin Transformer. El modelo ConvNeXT está entrenado en ImageNet-1k a una resolución de 224x224. Fue introducido en el artículo 'A ConvNet for the 2020s' por Liu et al. y se lanzó por primera vez en este repositorio. El equipo que lanzó ConvNeXT no escribió una tarjeta de modelo para este modelo, por lo que esta tarjeta de modelo ha sido escrita por el equipo de Hugging Face.
Como usar
Aquí tienes cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import ConvNextImageProcessor, ConvNextForImageClassification
import torch
from datasets import load_dataset
dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]
processor = ConvNextImageProcessor.from_pretrained("facebook/convnext-small-224")
model = ConvNextForImageClassification.from_pretrained("facebook/convnext-small-224")
inputs = processor(image, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])
Para más ejemplos de código, nos referimos a la documentación.
Funcionalidades
- Modelo puramente convolucional
- Inspirado en Transformers de Visión
- Diseñado para superar los Transformers de Visión
- Entrenado en ImageNet-1k
Casos de uso
- Clasificación de imágenes