ConvNeXt V2 (modelo de tamaño pequeño)

facebook
Clasificación de imagen

El modelo ConvNeXt V2 preentrenado utilizando el marco FCMAE y afinado en el conjunto de datos ImageNet-1K con una resolución de 224x224. Fue introducido en el artículo 'ConvNeXt V2: Co-diseñando y Escalando ConvNets con Autoencoders Enmascarados' por Woo et al. y fue lanzado por primera vez en este repositorio. ConvNeXt V2 es un modelo puramente convolucional (ConvNet) que introduce un marco de autoencoder enmascarado completamente convolucional (FCMAE) y una nueva capa Global Response Normalization (GRN) a ConvNeXt. ConvNeXt V2 mejora significativamente el rendimiento de los ConvNets puros en varios puntos de referencia de reconocimiento.

Como usar

from transformers import AutoImageProcessor, ConvNextV2ForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

preprocessor = AutoImageProcessor.from_pretrained("facebook/convnextv2-tiny-1k-224")
model = ConvNextV2ForImageClassification.from_pretrained("facebook/convnextv2-tiny-1k-224")

inputs = preprocessor(image, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

# el modelo predice una de las 1000 clases de ImageNet
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])

Funcionalidades

Modelo de red completamente convolucional
Marco de autoencoder enmascarado completamente convolucional (FCMAE)
Nueva capa Global Response Normalization (GRN)
Mejora significativa en los puntos de referencia de reconocimiento

Casos de uso

Clasificación de imágenes