timm/seresnet33ts.ra2_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes SE-ResNet (ResNet con atención de canal 'Squeeze-and-Excitation'). Este modelo presenta un tallo de 3 capas escalonado sin agrupamiento y activaciones SiLU. Entrenado en ImageNet-1k por Ross Wightman en timm. La arquitectura de este modelo se implementa utilizando la BYOBNet flexible de timm (Red de bloques personalizados). BYOBNet permite la configuración de distribución de bloque/etapa, diseño del tallo, stride de salida (dilación), activación y capas de normalización, capas de atención de canal y espacial/autoatención, e incluye características comunes a muchas otras arquitecturas de timm, como la profundidad estocástica, la verificación de puntos de control de gradiente, la disminución de la tasa de aprendizaje por capa y la extracción de características por etapa.

Como usar

Clasificación de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('seresnet33ts.ra2_in1k', pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # redimensionar imagen única en un lote de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción del Mapa de Características

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'seresnet33ts.ra2_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # redimensionar imagen única en un lote de 1

for o in output:
# imprimir la forma de cada mapa de características en la salida
# por ejemplo:
#  torch.Size([1, 32, 128, 128])
#  torch.Size([1, 256, 64, 64])
#  torch.Size([1, 512, 32, 32])
#  torch.Size([1, 1536, 16, 16])
#  torch.Size([1, 1280, 8, 8])

print(o.shape)

Embeddings de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'seresnet33ts.ra2_in1k',
pretrained=True,
num_classes=0, # quitar clasificador nn.Linear
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida es un tensor de forma (batch_size, num_features)

# o equivalente (sin necesidad de configurar num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# la salida no es agrupada, un tensor de forma (1, 1280, 8, 8)

overhead = model.forward_head(output, pre_logits=True)
# la salida es un tensor de forma (1, num_features)

Funcionalidades

Profundidad estocástica
Verificación de puntos de control de gradiente
Disminución de la tasa de aprendizaje por capa
Extracción de características por etapa

Casos de uso

Clasificación de imágenes
Extracción del mapa de características
Embeddings de imágenes