ConvNeXt V2 (modelo tamaño atto)
facebook
Clasificación de imagen
El modelo ConvNeXt V2 es un modelo puramente convolucional (ConvNet) que introduce un marco de autoencoder enmascarado completamente convolucional (FCMAE) y una nueva capa de Normalización de Respuesta Global (GRN) a ConvNeXt. ConvNeXt V2 mejora significativamente el rendimiento de los ConvNets puros en varios puntos de referencia de reconocimiento.
Como usar
Aquí se explica cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoImageProcessor, ConvNextV2ForImageClassification
import torch
from datasets import load_dataset
dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]
preprocessor = AutoImageProcessor.from_pretrained("facebook/convnextv2-atto-1k-224")
model = ConvNextV2ForImageClassification.from_pretrained("facebook/convnextv2-atto-1k-224")
inputs = preprocessor(image, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])
Funcionalidades
- Modelo puramente convolucional
- Introducción del marco de autoencoder enmascarado completamente convolucional (FCMAE)
- Nueva capa de Normalización de Respuesta Global (GRN)
- Mejora significativa en el rendimiento de los ConvNets puros
Casos de uso
- Clasificación de imágenes