timm/resnet50.tv2_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes ResNet-B. Este modelo presenta activaciones ReLU, una capa de convolución única de 7x7 con agrupación y atajo de convolución 1x1 para muestreo descendente. Entrenado en ImageNet-1k en torchvision usando recetas de la versión 2.

Como usar

Clasificación de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('resnet50.tv2_in1k', pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionado)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir una dimensión para el lote de una imagen

probabilidades_top5, índices_clase_top5 = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapas de Características

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'resnet50.tv2_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionado)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir una dimensión para el lote de una imagen

for o in output:
# imprimir forma de cada mapa de características en la salida
# e.g.:
#  torch.Size([1, 64, 88, 88])
#  torch.Size([1, 256, 44, 44])
#  torch.Size([1, 512, 22, 22])
#  torch.Size([1, 1024, 11, 11])
#  torch.Size([1, 2048, 6, 6])

print(o.shape)

Embeddings de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'resnet50.tv2_in1k',
pretrained=True,
num_classes=0, # eliminar clasificador nn.Linear
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionado)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida es un tensor con forma (batch_size, num_features)

# o equivalentemente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# la salida no es agrupada, es un tensor con forma (1, 2048, 6, 6)

output = model.forward_head(output, pre_logits=True)
# la salida es un tensor con forma (1, num_features)

Funcionalidades

Activaciones ReLU
Capa de convolución única de 7x7 con agrupación
Atajo de convolución 1x1 para muestreo descendente

Casos de uso

Clasificación de Imágenes
Extracción de Mapas de Características
Embeddings de imágenes