resnet152.a1_in1k
timm
Clasificación de imagen
Un modelo de clasificación de imágenes ResNet-B. Este modelo presenta activaciones ReLU, una convolución de una sola capa 7x7 con agrupación y una redacción de muestreo en una convolución 1x1. Entrenado en ImageNet-1k en timm utilizando la plantilla de receta descrita a continuación: receta A1 de ResNet Strikes Back, optimizador LAMB con pérdida BCE, programación LR de coseno con calentamiento.
Como usar
Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model('resnet152.a1_in1k', pretrained=True)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # unsqueeze una sola imagen en un conjunto de 1
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
Extracción del Mapa de Características
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'resnet152.a1_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # unsqueeze una sola imagen en un conjunto de 1
for o in output:
# imprimir la forma de cada mapa de características en el output
# por ejemplo:
# torch.Size([1, 64, 112, 112])
# torch.Size([1, 256, 56, 56])
# torch.Size([1, 512, 28, 28])
# torch.Size([1, 1024, 14, 14])
# torch.Size([1, 2048, 7, 7])
print(o.shape)
Embeddings de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'resnet152.a1_in1k',
pretrained=True,
num_classes=0, # eliminar el clasificador nn.Linear
)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # la salida es un tensor de forma (batch_size, num_features)
# o equivalentemente (sin necesidad de establecer num_classes=0)
output = model.forward_features(transforms(img).unsqueeze(0))
# la salida es sin pooling, un tensor de forma (1, 2048, 7, 7)
output = model.forward_head(output, pre_logits=True)
# la salida es un tensor con la forma (1, num_features)
Funcionalidades
- Activaciones ReLU
- Convolución de una sola capa 7x7 con agrupación
- Redacción de muestreo en una convolución 1x1
- Entrenamiento en ImageNet-1k en timm
Casos de uso
- Clasificación de Imágenes
- Extracción del Mapa de Características
- Embeddings de Imágenes