timm/ecaresnet50t.ra2_in1k

timm

Clasificación de imagen

Un modelo de clasificación de imágenes ECA-ResNet-T con Atención de Canal Eficiente. Este modelo presenta: activaciones ReLU, un tallo de tres capas escalonado de convoluciones de 3x3 con pooling, atajo de muestreo descendente con promedio de 2x2 + convolución de 1x1, Atención de Canal Eficiente. Entrenado en ImageNet-1k en timm usando la plantilla de receta descrita a continuación. Detalles de la receta: receta RandAugment RA2, inspirado y evolucionado de las recetas de RandAugment de EfficientNet. Publicado como receta B en ResNet Strikes Back. Optimizador RMSProp (comportamiento TF 1.0), promedio de peso EMA. Horario LR de Step (decadencia exponencial con escaleras) con calentamiento.

Como usar

Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('ecaresnet50t.ra2_in1k', pretrained=True)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # un batch de una sola imagen

# obtener las cinco principales probabilidades y los índices
import torch
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapas de Característica
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('ecaresnet50t.ra2_in1k', pretrained=True, features_only=True)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # un batch de una sola imagen
for o in output:
  print(o.shape)

Embeddings de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('ecaresnet50t.ra2_in1k', pretrained=True, num_classes=0) # eliminar el clasificador nn.Linear
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # la salida es un tensor con forma (batch_size, num_features)

# o de manera equivalente sin necesidad de establecer num_classes=0
output = model.forward_features(transforms(img).unsqueeze(0)) # la salida no está agrupada, es un tensor con forma (1, 2048, 8, 8)
output = model.forward_head(output, pre_logits=True) # la salida es un tensor con forma (1, num_features)

Funcionalidades

Activaciones ReLU
Tallo escalonado de tres capas de convoluciones de 3x3 con pooling
Atajo de muestreo descendente con promedio de 2x2 + convolución de 1x1
Atención de Canal Eficiente

Casos de uso

Clasificación de imágenes
Extracción de mapas de características
Obtención de embeddings de imágenes