timm/nf_resnet50.ra2_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes NFResNet (Norm-Free ResNet). Entrenado en timm por Ross Wightman. Las Redes de Normalización Libre son modelos similares a ResNet (preactivación) sin capas de normalización. En lugar de Batch Normalization u otras alternativas, utilizan una Estandarización Escalada de Pesos y ganancias escalares colocadas específicamente en la ruta residual y en las no linealidades basadas en el análisis de propagación de señales.

Como usar

Clasificación de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('nf_resnet50.ra2_in1k', pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionado)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # unificar imagen única en lote de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapas de Características

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'nf_resnet50.ra2_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionado)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # unificar imagen única en lote de 1

for o in output: 
  print(o.shape)

Embeddings de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'nf_resnet50.ra2_in1k',
pretrained=True,
num_classes=0, # eliminar clasificador nn.Linear
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionado)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # salida es un tensor con forma (batch_size, num_features)

# o de manera equivalente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# salida no agrupada, un tensor con forma (1, 2048, 8, 8)

output = model.forward_head(output, pre_logits=True)
# salida es un tensor con forma (1, num_features)

Funcionalidades

Clasificación de imágenes
Extracción de Mapas de Características
Embeddings de Imágenes

Casos de uso

Clasificación de imágenes
Extracción de características para otras tareas de visión por computadora
Generación de embeddings para comparar similitudes entre imágenes