ConvNeXt V2 (modelo de tamaño base)
facebook
Clasificación de imagen
ConvNeXt V2 es un modelo puramente convolucional (ConvNet) que introduce un marco de autoencoder completamente convolucional (FCMAE) y una nueva capa de Normalización de Respuesta Global (GRN) a ConvNeXt. ConvNeXt V2 mejora significativamente el rendimiento de las ConvNets puras en varios benchmarks de reconocimiento.
Como usar
Aquí se muestra cómo usar este modelo para clasificar una imagen del dataset COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoImageProcessor, ConvNextV2ForImageClassification
import torch
from datasets import load_dataset
dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]
preprocessor = AutoImageProcessor.from_pretrained("facebook/convnextv2-base-1k-224")
model = ConvNextV2ForImageClassification.from_pretrained("facebook/convnextv2-base-1k-224")
inputs = preprocessor(image, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])
Para más ejemplos de código, nos remitimos a la documentación.
Funcionalidades
- Modelo puramente convolucional (ConvNet)
- Introducción de un marco de autoencoder completamente convolucional (FCMAE)
- Nueva capa de Normalización de Respuesta Global (GRN)
- Mejoras significativas en el rendimiento en varios benchmarks de reconocimiento
Casos de uso
- Clasificación de imágenes
- Reconocimiento de imágenes
- Tareas de clasificación usando versiones ajustadas del modelo