facebook/convnext-base-224-22k
facebook
Clasificación de imagen
ConvNeXT es un modelo puramente convolucional (ConvNet), inspirado en el diseño de los Transformadores de Visión, que afirma superarlos. Los autores comenzaron con un ResNet y 'modernizaron' su diseño tomando como inspiración el Swin Transformer. ConvNeXT modelo entrenado en ImageNet-22k a resolución 224x224. Fue introducido en el artículo 'A ConvNet for the 2020s' por Liu et al. y fue lanzado por primera vez en este repositorio.
Como usar
Aquí está cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import ConvNextImageProcessor, ConvNextForImageClassification
import torch
from datasets import load_dataset
dataset = load_dataset('huggingface/cats-image')
image = dataset['test']['image'][0]
processor = ConvNextImageProcessor.from_pretrained('facebook/convnext-base-224-22k')
model = ConvNextForImageClassification.from_pretrained('facebook/convnext-base-224-22k')
inputs = processor(image, return_tensors='pt')
with torch.no_grad():
logits = model(**inputs).logits
# el modelo predice una de las 22k clases de ImageNet
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])
Para más ejemplos de código, nos referimos a la documentación.
Funcionalidades
- Clasificación de imágenes
- Modelo convolucional puro
- Inspirado en Vision Transformers
- Basado en ResNet
- Mejoras modernas inspiradas en Swin Transformer
- Entrenado en ImageNet-22k
Casos de uso
- Clasificación de imágenes
- Reconocimiento de objetos
- Aplicaciones de visión por computadora
- Mejorar modelos de ResNet existentes