ConvNeXt V2 (modelo de tamaño base)

facebook

Clasificación de imagen

Modelo ConvNeXt V2 preentrenado usando el marco FCMAE y afinado en el conjunto de datos ImageNet-22K a una resolución de 224x224. Fue introducido en el artículo ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders por Woo et al. y fue lanzado por primera vez en este repositorio. ConvNeXt V2 es un modelo puramente convolucional (ConvNet) que introduce un marco completamente convolucional de autoencodificadores enmascarados (FCMAE) y una nueva capa de Normalización de Respuesta Global (GRN) a ConvNeXt. ConvNeXt V2 mejora significativamente el rendimiento de los ConvNets puros en varios puntos de referencia de reconocimiento.

Como usar

Aquí se explica cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoImageProcessor, ConvNextV2ForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset('huggingface/cats-image')
image = dataset['test']['image'][0]

preprocessor = AutoImageProcessor.from_pretrained('facebook/convnextv2-base-22k-224')
model = ConvNextV2ForImageClassification.from_pretrained('facebook/convnextv2-base-22k-224')

inputs = preprocessor(image, return_tensors='pt')

with torch.no_grad():
  logits = model(**inputs).logits

  # el modelo predice una de las 1000 clases de ImageNet
  predicted_label = logits.argmax(-1).item()
  print(model.config.id2label[predicted_label])

Para más ejemplos de código, consulte la documentación.

Funcionalidades

Modelo convolucional puro
Marco de autoencodificador enmascarado completamente convolucional (FCMAE)
Nueva capa de Normalización de Respuesta Global (GRN)
Mejoras significativas en el rendimiento de los ConvNets puros

Casos de uso

Clasificación de imágenes