facebook/convnextv2-base-22k-384

facebook

Clasificación de imagen

ConvNeXt V2 es un modelo puramente convolucional (ConvNet) que introduce un marco de autoencoders enmascarados completamente convolucionales (FCMAE) y una nueva capa de Normalización de Respuesta Global (GRN) a ConvNeXt. ConvNeXt V2 mejora significativamente el rendimiento de los ConvNets puros en varios benchmarks de reconocimiento. El modelo ConvNeXt V2 está preentrenado usando el marco FCMAE y afinado en el dataset ImageNet-22K a una resolución de 384x384. Fue presentado en el artículo ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders por Woo et al. y fue liberado por primera vez en este repositorio. Descargo de responsabilidad: El equipo que liberó ConvNeXT V2 no escribió una tarjeta de modelo para este modelo, por lo que esta tarjeta ha sido escrita por el equipo de Hugging Face.

Como usar

Aquí se muestra cómo utilizar este modelo para clasificar una imagen del dataset COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoImageProcessor, ConvNextV2ForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

preprocessor = AutoImageProcessor.from_pretrained("facebook/convnextv2-base-22k-384")
model = ConvNextV2ForImageClassification.from_pretrained("facebook/convnextv2-base-22k-384")

inputs = preprocessor(image, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

# El modelo predice una de las 1000 clases de ImageNet
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])

Para más ejemplos de código, nos referimos a la documentación.

Funcionalidades

Modelo puramente convolucional (ConvNet)
Introducción de un marco de autoencoders enmascarados totalmente convolucional (FCMAE)
Nueva capa de Normalización de Respuesta Global (GRN)
Mejora significativa en el rendimiento de reconocimiento

Casos de uso

Clasificación de imágenes
Mejoras en benchmarks de reconocimiento