cspresnet50.ra_in1k

timm

Clasificación de imagen

Un modelo de clasificación de imágenes CSP-ResNet (Cross-Stage-Partial). Entrenado en ImageNet-1k usando la plantilla de receta timm descrita a continuación. Detalles de receta: Receta RandAugment RA. Inspirada y evolucionada de las recetas RandAugment de EfficientNet. Publicado como receta B en ResNet Strikes Back. Optimizador RMSProp (comportamiento de TF 1.0), EMA promedio ponderado. Programación de LR de escalón (decaimiento exponencial con escalonamiento) con calentamiento.

Como usar

Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('cspresnet50.ra_in1k', pretrained=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # unsqueeze single image into batch of 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapa de Características
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'cspresnet50.ra_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # unsqueeze single image into batch of 1

for o in output:
print(o.shape)

Embeddings de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'cspresnet50.ra_in1k',
pretrained=True,
num_classes=0, # remove classifier nn.Linear
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # output is (batch_size, num_features) shaped tensor

# or equivalently (without needing to set num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# output is unpooled, a (1, 1024, 8, 8) shaped tensor

output = model.forward_head(output, pre_logits=True)
# output is a (1, num_features) shaped tensor

Funcionalidades

Clasificación de imágenes
Extracción de mapa de características
Embeddings de imágenes
Tamaño de las imágenes: 256 x 256
Parámetros (M): 21.6
GMACs: 4.5
Activaciones (M): 11.5

Casos de uso

Clasificación de imágenes para reconocer objetos y escenas.
Extracción de características de imágenes para análisis avanzados.
Generación de embeddings de imágenes para usar en tareas de aprendizaje de máquina.