timm/nfnet_l0.ra2_in1k
Un modelo de clasificación de imágenes NFNet-Lite (NFNet Ligero). Entrenado en timm por Ross Wightman. Los Redes Sin Normalización son modelos similares a ResNet (pre-activación) sin capas de normalización. En lugar de Batch Normalization u otras alternativas, utilizan la Estandarización de Peso Escalado y ganancias escalares específicamente ubicadas en la ruta residual y en las no linealidades basadas en el análisis de propagación de la señal. Los NFNets ligeros son variantes específicas de timm que reducen la proporción de SE y cuello de botella de 0.5 -> 0.25 (reduciendo anchos) y usan un tamaño de grupo más pequeño mientras mantienen la misma profundidad. Activaciones SiLU utilizadas en lugar de GELU.
Como usar
Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model('nfnet_l0.ra2_in1k', pretrained=True)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # añadir una dimensión para lote de 1 imagen
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
Extracción de Mapas de Características
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'nfnet_l0.ra2_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # añadir una dimensión para lote de 1 imagen
for o in output:
# imprimir la forma de cada mapa de características en la salida
# p.ej.:
# torch.Size([1, 64, 112, 112])
# torch.Size([1, 256, 56, 56])
# torch.Size([1, 512, 28, 28])
# torch.Size([1, 1536, 14, 14])
# torch.Size([1, 2304, 7, 7])
print(o.shape)
Embeddings de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'nfnet_l0.ra2_in1k',
pretrained=True,
num_classes=0, # eliminar nn.Linear del clasificador
)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # salida es un tensor de forma (batch_size, num_features)
# o equivalente (sin necesidad de establecer num_classes=0)
output = model.forward_features(transforms(img).unsqueeze(0))
# salida sin poo, es un tensor de forma (1, 2304, 7, 7)
output = model.forward_head(output, pre_logits=True)
# salida es un tensor de forma (1, num_features)
Funcionalidades
- Clasificación de imágenes
- Extracción de mapas de características
- Embeddings de imágenes
- Proporción SE reducida
- Activaciones SiLU
Casos de uso
- Clasificación de imágenes en grandes volúmenes
- Extracción de características de imágenes para tareas de reconocimiento
- Generación de embeddings de imágenes para aprendizaje profundo
- Comparación de modelos específicos NFNet para ajustes de arquitectura