timm/nfnet_l0.ra2_in1k

timm

Clasificación de imagen

Un modelo de clasificación de imágenes NFNet-Lite (NFNet Ligero). Entrenado en timm por Ross Wightman. Los Redes Sin Normalización son modelos similares a ResNet (pre-activación) sin capas de normalización. En lugar de Batch Normalization u otras alternativas, utilizan la Estandarización de Peso Escalado y ganancias escalares específicamente ubicadas en la ruta residual y en las no linealidades basadas en el análisis de propagación de la señal. Los NFNets ligeros son variantes específicas de timm que reducen la proporción de SE y cuello de botella de 0.5 -> 0.25 (reduciendo anchos) y usan un tamaño de grupo más pequeño mientras mantienen la misma profundidad. Activaciones SiLU utilizadas en lugar de GELU.

Como usar

Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('nfnet_l0.ra2_in1k', pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir una dimensión para lote de 1 imagen

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapas de Características
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'nfnet_l0.ra2_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir una dimensión para lote de 1 imagen

for o in output:
# imprimir la forma de cada mapa de características en la salida
# p.ej.:
#  torch.Size([1, 64, 112, 112])
#  torch.Size([1, 256, 56, 56])
#  torch.Size([1, 512, 28, 28])
#  torch.Size([1, 1536, 14, 14])
#  torch.Size([1, 2304, 7, 7])

print(o.shape)

Embeddings de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'nfnet_l0.ra2_in1k',
pretrained=True,
num_classes=0, # eliminar nn.Linear del clasificador
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # salida es un tensor de forma (batch_size, num_features)

# o equivalente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# salida sin poo, es un tensor de forma (1, 2304, 7, 7)

output = model.forward_head(output, pre_logits=True)
# salida es un tensor de forma (1, num_features)

Funcionalidades

Clasificación de imágenes
Extracción de mapas de características
Embeddings de imágenes
Proporción SE reducida
Activaciones SiLU

Casos de uso

Clasificación de imágenes en grandes volúmenes
Extracción de características de imágenes para tareas de reconocimiento
Generación de embeddings de imágenes para aprendizaje profundo
Comparación de modelos específicos NFNet para ajustes de arquitectura