facebook/convnext-tiny-224

facebook

Clasificación de imagen

ConvNeXT (modelo de tamaño pequeño) es un modelo de ConvNeXT entrenado en ImageNet-1k con una resolución de 224x224. Fue introducido en el artículo 'A ConvNet for the 2020s' por Liu et al. y publicado por primera vez en este repositorio. ConvNeXT es un modelo puramente convolucional (ConvNet), inspirado en el diseño de Vision Transformers, que afirma superarlos en rendimiento. Los autores partieron de un ResNet y 'modernizaron' su diseño tomando como inspiración el Swin Transformer.

Como usar

Aquí se muestra cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import ConvNextImageProcessor, ConvNextForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

processor = ConvNextImageProcessor.from_pretrained("facebook/convnext-tiny-224")
model = ConvNextForImageClassification.from_pretrained("facebook/convnext-tiny-224")

inputs = processor(image, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

# el modelo predice una de las 1000 clases de ImageNet
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])

Para más ejemplos de código, consulte la documentación.

Funcionalidades

Modelo convolucional puro
Entrenado en ImageNet-1k a una resolución de 224x224
Inspirado en el diseño de Vision Transformers
Modernización del diseño de ResNet utilizando Swin Transformer como inspiración

Casos de uso

Clasificación de imágenes