timm/resnext26ts.ra2_in1k
Un modelo de clasificación de imágenes ResNeXt. Este modelo presenta un tallo de 3 capas escalonadas y activaciones SiLU. Entrenado en ImageNet-1k por Ross Wightman en timm. Esta arquitectura de modelo se implementa utilizando la flexible BYOBNet (Red de Traer Tus Propios Bloques, por sus siglas en inglés) de timm. BYOBNet permite la configuración de: diseño de bloques/etapas, diseño de tallo, paso de salida (dilación), capas de activación y normalización, y capas de atención espacial/auto-atención. También incluye características comunes de timm a muchas otras arquitecturas, como la profundidad estocástica, el checkpointing de gradiente, la disminución progresiva de la LR (tasa de aprendizaje) y la extracción de características por etapas.
Como usar
Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model('resnext26ts.ra2_in1k', pretrained=True)
model = model.eval()
# obtener las transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # descomprimir una sola imagen en un lote de 1
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
Extracción de Mapa de Características
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'resnext26ts.ra2_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()
# obtener las transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # descomprimir una sola imagen en un lote de 1
for o in output:
# imprimir la forma de cada mapa de características en la salida
# por ejemplo:
# torch.Size([1, 64, 128, 128])
# torch.Size([1, 256, 64, 64])
# torch.Size([1, 512, 32, 32])
# torch.Size([1, 1024, 16, 16])
# torch.Size([1, 2048, 8, 8])
print(o.shape)
Embeddings de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'resnext26ts.ra2_in1k',
pretrained=True,
num_classes=0, # eliminar el clasificador nn.Linear
)
model = model.eval()
# obtener las transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # la salida es un tensor con forma (batch_size, num_features)
# o equivalentemente (sin necesidad de establecer num_classes=0)
output = model.forward_features(transforms(img).unsqueeze(0))
# la salida no está agrupada, es un tensor con forma (1, 2048, 8, 8)
output = model.forward_head(output, pre_logits=True)
# la salida es un tensor con forma (1, num_features)
Funcionalidades
- Profundidad estocástica
- Checkpointing de gradiente
- Disminución progresiva de la tasa de aprendizaje (LR)
- Extracción de características por etapas
Casos de uso
- Clasificación de Imágenes
- Extracción de Mapas de Características
- Embeddings de Imágenes