timm/hrnet_w30.ms_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes HRNet. Entrenado en ImageNet-1k por los autores del artículo 'Aprendizaje de Representación de Alta Resolución Profunda para el Reconocimiento Visual'. Este modelo es ideal para la clasificación de imágenes, la extracción de mapas de características y las incrustaciones de imágenes. Posee 37.7 millones de parámetros, 8.2 GMACs, 21.2 millones de activaciones y soporta imágenes de tamaño 224 x 224.

Como usar

Clasificación de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('hrnet_w30.ms_in1k', pretrained=True)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir una dimensión al lote para una sola imagen

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapas de Características

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('hrnet_w30.ms_in1k', pretrained=True, features_only=True)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir una dimensión al lote para una sola imagen

for o in output:
# imprimir forma de cada mapa de características en la salida
# por ejemplo:
# torch.Size([1, 64, 112, 112])
# torch.Size([1, 128, 56, 56])
# torch.Size([1, 256, 28, 28])
# torch.Size([1, 512, 14, 14])
# torch.Size([1, 1024, 7, 7])

print(o.shape)

Incrustaciones de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('hrnet_w30.ms_in1k', pretrained=True, num_classes=0) # elimina la capa clasificadora
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida es un tensor con forma (batch_size, num_features)

# o equivalente (sin necesidad de configurar num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# la salida es sin agrupación, un tensor con forma (1, 2048, 7, 7)

output = model.forward_head(output, pre_logits=True)
# la salida es un tensor con forma (1, num_features)

Funcionalidades

Clasificación de Imágenes
Extracción de Mapas de Características
Incrustaciones de Imágenes

Casos de uso

Clasificación de imágenes de alta resolución
Extracción de mapas de características para tareas de visión por computadora
Obtención de incrustaciones de imágenes con fines de análisis y comparación