ecaresnet101d_pruned.miil_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes ECA-ResNet-D con Atención de Canal Eficiente. Este modelo presenta activaciones ReLU, un tallo de 3 capas con convoluciones de 3x3 con agrupamiento, reducción de tamaño de atajo de convolución de 2x2 más convolución de 1x1, y Atención de Canal Eficiente. Entrenado en ImageNet-1k por Alibaba MIIL.

Como usar

Clasificación de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('ecaresnet101d_pruned.miil_in1k', pretrained=True)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # aumentar el tamaño de una sola imagen en un lote de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapas de Características

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'ecaresnet101d_pruned.miil_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # aumentar el tamaño de una sola imagen en un lote de 1

for o in output:
# imprimir la forma de cada mapa de características en la salida
print(o.shape)

Embebidos de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'ecaresnet101d_pruned.miil_in1k',
pretrained=True,
num_classes=0, # eliminar el clasificador nn.Linear
)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida es un tensor con forma (batch_size, num_features)

# o equivalentemente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# la salida no está agrupada, es un tensor con forma (1, 2042, 7, 7)

output = model.forward_head(output, pre_logits=True)
# la salida es un tensor con forma (1, num_features)

Funcionalidades

Activaciones ReLU
Tallo de 3 capas con convoluciones de 3x3 y agrupamiento
Reducción de tamaño de atajo con convolución de 2x2 más convolución de 1x1
Atención de Canal Eficiente

Casos de uso

Clasificación de imágenes
Extracción de mapas de características
Embebidos de imágenes