microsoft/resnet-152

microsoft
Clasificación de imagen

El modelo ResNet-152 v1.5 es una red neuronal convolucional preentrenada en el conjunto de datos ImageNet-1k a una resolución de 224x224. Fue introducido en el artículo 'Deep Residual Learning for Image Recognition' por He et al. ResNet (Residual Network) democratizó los conceptos de aprendizaje residual y conexiones de salto, lo que permite entrenar modelos mucho más profundos. ResNet v1.5 difiere del modelo original en que, en los bloques de cuello de botella que requieren submuestreo, v1 tiene un stride de 2 en la primera convolución de 1x1, mientras que v1.5 tiene un stride de 2 en la convolución de 3x3. Esta diferencia hace que ResNet50 v1.5 sea ligeramente más preciso (~0.5% top1) que v1, pero con una pequeña desventaja en el rendimiento (~5% imgs/seg) según Nvidia.

Como usar

Aquí se muestra cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:

from transformers import AutoFeatureExtractor, ResNetForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/resnet-152")
model = ResNetForImageClassification.from_pretrained("microsoft/resnet-152")

inputs = feature_extractor(image, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

# model predicts one of the 1000 ImageNet classes
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])

Para más ejemplos de código, consulte la documentación.

Funcionalidades

Red neuronal convolucional
Aprendizaje residual
Conexiones de salto
Modelos más profundos
Preentrenado en ImageNet-1k a una resolución de 224x224
Stride modificado para mayor precisión

Casos de uso

Clasificación de imágenes