ConvNeXt V2 (modelo grande)

facebook

Clasificación de imagen

El modelo ConvNeXt V2 se ha preentrenado utilizando el marco FCMAE y se ha ajustado finamente en el conjunto de datos ImageNet-22K con una resolución de 224x224. Fue presentado en el artículo ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders por Woo et al. ConvNeXt V2 es un modelo puramente convolucional (ConvNet) que introduce un marco de autoencoders completamente convolucional y una nueva capa de Normalización de Respuesta Global (GRN) en ConvNeXt. ConvNeXt V2 mejora significativamente el rendimiento de los ConvNets puros en varios benchmarks de reconocimiento.

Como usar

Aquí se muestra cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoImageProcessor, ConvNextV2ForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

preprocessor = AutoImageProcessor.from_pretrained("facebook/convnextv2-large-22k-224")
model = ConvNextV2ForImageClassification.from_pretrained("facebook/convnextv2-large-22k-224")

inputs = preprocessor(image, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

# el modelo predice una de las 1000 clases de ImageNet
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])

Funcionalidades

Modelo puramente convolucional
Marco de autoencoders completamente convolucional (FCMAE)
Capa de Normalización de Respuesta Global (GRN)
Mejora del rendimiento en benchmarks de reconocimiento

Casos de uso

Clasificación de imágenes