bat_resnext26ts.ch_in1k
Un modelo de clasificación de imágenes BAT-ResNeXt (ResNeXt con 'Transformaciones de Atención Bilineal Agrupadas'). Este modelo presenta un tallo de 3 capas en niveles y activaciones SiLU. Entrenado en ImageNet-1k por Ross Wightman en timm. Esta arquitectura de modelo se implementa utilizando la flexible BYOBNet (Bring-Your-Own-Blocks Network) de timm. BYOBNet permite la configuración de: diseño de bloque/etapa, diseño de tallo, paso de salida (dilación), capas de activación y norma, capas de canal y atención espacial/propia... e incluye también características comunes de timm a muchas otras arquitecturas, incluyendo: profundidad estocástica, punto de control de gradientes, decaimiento del LR por capas, extracción de características por etapas.
Como usar
Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model('bat_resnext26ts.ch_in1k', pretrained=True)
model = model.eval()
# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # unsqueeze imagen única en un batch de 1
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
Extracción de Mapas de Características
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'bat_resnext26ts.ch_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()
# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # unsqueeze imagen única en un batch de 1
for o in output:
# imprimir la forma de cada mapa de características en la salida
# ej.:
# torch.Size([1, 64, 128, 128])
# torch.Size([1, 256, 64, 64])
# torch.Size([1, 512, 32, 32])
# torch.Size([1, 1024, 16, 16])
# torch.Size([1, 2048, 8, 8])
print(o.shape)
Embeddings de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'bat_resnext26ts.ch_in1k',
pretrained=True,
num_classes=0, # eliminar el clasificador nn.Linear
)
model = model.eval()
# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # la salida es un tensor con forma (batch_size, num_features)
# o equivalentemente (sin necesidad de establecer num_classes=0)
output = model.forward_features(transforms(img).unsqueeze(0))
# la salida no está agrupada, un tensor con forma (1, 2048, 8, 8)
output = model.forward_head(output, pre_logits=True)
# la salida es un tensor con forma (1, num_features)
Citación
@misc{rw2019timm,
author = {Ross Wightman},
title = {PyTorch Image Models},
year = {2019},
publisher = {GitHub},
journal = {GitHub repository},
doi = {10.5281/zenodo.4414861},
howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}
@InProceedings{Chi_2020_CVPR,
author = {Chi, Lu and Yuan, Zehuan and Mu, Yadong and Wang, Changhu},
title = {Non-Local Neural Networks With Grouped Bilinear Attentional Transforms},
booktitle = {The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2020}
}
@article{Xie2016,
title={Aggregated Residual Transformations for Deep Neural Networks},
author={Saining Xie and Ross Girshick and Piotr Dollár and Zhuowen Tu and Kaiming He},
journal={arXiv preprint arXiv:1611.05431},
year={2016}
}
Funcionalidades
- Clasificación de imágenes
- Extracción de mapas de características
- Embeddings de imágenes
- Diseño de bloque/etapa configurable
- Diseño de tallo configurable
- Paso de salida (dilación) configurable
- Capas de activación y norma configurables
- Capas de atención canal y espacial configurables
- Profundidad estocástica
- Punto de control de gradientes
- Decaimiento del LR por capas
- Extracción de características por etapas
Casos de uso
- Clasificación de imágenes
- Extracción de mapas de características
- Generación de embeddings de imágenes