bat_resnext26ts.ch_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes BAT-ResNeXt (ResNeXt con 'Transformaciones de Atención Bilineal Agrupadas'). Este modelo presenta un tallo de 3 capas en niveles y activaciones SiLU. Entrenado en ImageNet-1k por Ross Wightman en timm. Esta arquitectura de modelo se implementa utilizando la flexible BYOBNet (Bring-Your-Own-Blocks Network) de timm. BYOBNet permite la configuración de: diseño de bloque/etapa, diseño de tallo, paso de salida (dilación), capas de activación y norma, capas de canal y atención espacial/propia... e incluye también características comunes de timm a muchas otras arquitecturas, incluyendo: profundidad estocástica, punto de control de gradientes, decaimiento del LR por capas, extracción de características por etapas.

Como usar

Clasificación de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('bat_resnext26ts.ch_in1k', pretrained=True)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # unsqueeze imagen única en un batch de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapas de Características

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'bat_resnext26ts.ch_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # unsqueeze imagen única en un batch de 1

for o in output:
# imprimir la forma de cada mapa de características en la salida
# ej.:
#  torch.Size([1, 64, 128, 128])
#  torch.Size([1, 256, 64, 64])
#  torch.Size([1, 512, 32, 32])
#  torch.Size([1, 1024, 16, 16])
#  torch.Size([1, 2048, 8, 8])

print(o.shape)

Embeddings de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'bat_resnext26ts.ch_in1k',
pretrained=True,
num_classes=0, # eliminar el clasificador nn.Linear
)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida es un tensor con forma (batch_size, num_features)

# o equivalentemente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# la salida no está agrupada, un tensor con forma (1, 2048, 8, 8)

output = model.forward_head(output, pre_logits=True)
# la salida es un tensor con forma (1, num_features)

Citación

@misc{rw2019timm,
author = {Ross Wightman},
title = {PyTorch Image Models},
year = {2019},
publisher = {GitHub},
journal = {GitHub repository},
doi = {10.5281/zenodo.4414861},
howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}

@InProceedings{Chi_2020_CVPR,
author = {Chi, Lu and Yuan, Zehuan and Mu, Yadong and Wang, Changhu},
title = {Non-Local Neural Networks With Grouped Bilinear Attentional Transforms},
booktitle = {The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2020}
}

@article{Xie2016,
title={Aggregated Residual Transformations for Deep Neural Networks},
author={Saining Xie and Ross Girshick and Piotr Dollár and Zhuowen Tu and Kaiming He},
journal={arXiv preprint arXiv:1611.05431},
year={2016}
}

Funcionalidades

Clasificación de imágenes
Extracción de mapas de características
Embeddings de imágenes
Diseño de bloque/etapa configurable
Diseño de tallo configurable
Paso de salida (dilación) configurable
Capas de activación y norma configurables
Capas de atención canal y espacial configurables
Profundidad estocástica
Punto de control de gradientes
Decaimiento del LR por capas
Extracción de características por etapas

Casos de uso

Clasificación de imágenes
Extracción de mapas de características
Generación de embeddings de imágenes