facebook/convnextv2-tiny-22k-224

facebook
Clasificación de imagen

ConvNeXt V2 es un modelo puro de convolución (ConvNet) que introduce un marco de codificador automático enmascarado completamente convolucional (FCMAE) y una nueva capa de Normalización de Respuesta Global (GRN) a ConvNeXt. ConvNeXt V2 mejora significativamente el rendimiento de los ConvNets puros en varios puntos de referencia de reconocimiento. Fue presentado en el artículo 'ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders' por Woo et al. y fue publicado por primera vez en este repositorio.

Como usar

from transformers import AutoImageProcessor, ConvNextV2ForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

preprocessor = AutoImageProcessor.from_pretrained("facebook/convnextv2-tiny-22k-224")
model = ConvNextV2ForImageClassification.from_pretrained("facebook/convnextv2-tiny-22k-224")

inputs = preprocessor(image, return_tensors="pt")

with torch.no_grad():
logits = model(**inputs).logits

# el modelo predice una de las 1000 clases de ImageNet
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label]),

Funcionalidades

Modelo de convolución pura (ConvNet)
Marco de codificación automática enmascarado completamente convolucional (FCMAE)
Nueva capa de Normalización de Respuesta Global (GRN)
Mejora del rendimiento en varios puntos de referencia de reconocimiento

Casos de uso

Clasificación de imágenes
Uso en tareas que requieran reconocimiento de imágenes