wide_resnet101_2.tv_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes Wide-ResNet-B. Este modelo presenta activaciones ReLU, una única capa de convolución 7x7 con pooling y un atajo de muestreo descendente por convolución 1x1. Entrenado en ImageNet-1k, peso del modelo original de torchvision.

Como usar

Clasificación de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('wide_resnet101_2.tv_in1k', pretrained=True)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, redimensionado)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # agregar una dimensión para crear un lote de 1 imagen

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapas de Características

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('wide_resnet101_2.tv_in1k', pretrained=True, features_only=True)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, redimensionado)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # agregar una dimensión para crear un lote de 1 imagen

for o in output:
    print(o.shape)

Embeddings de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('wide_resnet101_2.tv_in1k', pretrained=True, num_classes=0)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, redimensionado)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida tiene la forma (batch_size, num_features)

# o equivalentemente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# la salida sin pooling tiene la forma (1, 2048, 7, 7)

output = model.forward_head(output, pre_logits=True)
# la salida tiene la forma (1, num_features)

Funcionalidades

Activaciones ReLU
Capa única de convolución 7x7 con pooling
Atajo de muestreo descendente por convolución 1x1

Casos de uso

Clasificación de imágenes
Extracción de mapas de características
Generación de embeddings de imágenes