eca_botnext26ts_256.c1_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes BotNet (con atención de canal eficiente, basado en la arquitectura ResNeXt). Entrenado en ImageNet-1k en timm por Ross Wightman. NOTA: este modelo no se adhirió a ninguna configuración específica de un artículo, fue ajustado para tiempos de entrenamiento razonables y reducida frecuencia de bloques de autoatención.

Como usar

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('eca_botnext26ts_256.c1_in1k', pretrained=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # unsqueeze single image into batch of 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'eca_botnext26ts_256.c1_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # unsqueeze single image into batch of 1

for o in output:
# print shape of each feature map in output
# e.g.:
#  torch.Size([1, 64, 128, 128])
#  torch.Size([1, 256, 64, 64])
#  torch.Size([1, 512, 32, 32])
#  torch.Size([1, 1024, 16, 16])
#  torch.Size([1, 2048, 8, 8])

print(o.shape)
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'eca_botnext26ts_256.c1_in1k',
pretrained=True,
num_classes=0, # remove classifier nn.Linear
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # output is (batch_size, num_features) shaped tensor

# or equivalently (without needing to set num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# output is unpooled, a (1, 2048, 8, 8) shaped tensor

output = model.forward_head(output, pre_logits=True)
# output is a (1, num_features) shaped tensor

Funcionalidades

Basado en recetas de 'ResNet Strikes Back C'
Optimizador SGD (con Nesterov) y AGC (recorte de gradiente adaptativo)
Horario de LR coseno con calentamiento
Arquitectura BYOBNet flexible de timm
Extracción de características por etapa
Profundidad estocástica
Control de puntos de gradiente
Decaimiento de LR por capa

Casos de uso

Clasificación de imágenes
Extracción de mapas de características
Embeddings de imágenes