timm/resnet152d.ra2_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes ResNet-D. Este modelo incluye activaciones ReLU, un tallo de 3 capas con convoluciones 3x3 y agrupación, y un acceso directo de muestreo promedio 2x2 + convolución 1x1. Entrenado en ImageNet-1k utilizando la receta RA2 de RandAugment, inspirada y evolucionada a partir de las recetas RandAugment de EfficientNet, publicadas como receta B en ResNet Strikes Back. Utiliza el optimizador RMSProp (comportamiento de TF 1.0), promediado de peso EMA y una programación LR escalonada (decay exponencial con escalones) con calentamiento. Es un modelo de clasificación de imágenes y backbone de características.

Como usar

Clasificación de imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('resnet152d.ra2_in1k', pretrained=True)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadiendo una dimensión para crear lote de tamaño 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de mapas de características

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('resnet152d.ra2_in1k', pretrained=True, features_only=True,)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadiendo una dimensión para crear lote de tamaño 1

for o in output:
  print(o.shape)

Embeddings de imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('resnet152d.ra2_in1k', pretrained=True, num_classes=0)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida es un tensor con forma (batch_size, num_features)

# o equivalentemente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# la salida no está agrupada, es un tensor con forma (1, 2048, 8, 8)

output = model.forward_head(output, pre_logits=True)
# la salida es un tensor con forma (1, num_features)

Funcionalidades

Activaciones ReLU
Tallo de 3 capas con convoluciones 3x3 y agrupación
Acceso directo de muestreo promedio 2x2 + convolución 1x1
Entrenado en ImageNet-1k
Utiliza la receta RA2 de RandAugment
Optimizador RMSProp (comportamiento de TF 1.0)
Ponderación EMA
Programación LR con escalonada (decay exponencial con escalones) con calentamiento

Casos de uso

Clasificación de imágenes
Extracción de mapas de características
Generación de embeddings de imágenes