timm/efficientnet_es.ra_in1k

timm

Clasificación de imagen

Un modelo de clasificación de imágenes EfficientNet-EdgeTPU. Entrenado en ImageNet-1k en timm utilizando la plantilla de recetas descrita a continuación. Detalles de la receta: - Receta RandAugment RA. Inspirado y evolucionado a partir de las recetas EfficientNet RandAugment. Publicado como receta B en 'ResNet Strikes Back'. - Optimizador RMSProp (comportamiento TF 1.0) y promediado de pesos EMA - Plan de entrenamiento LR de paso (decadencia exponencial con escalón) con warmup Detalles del modelo: - Tipo de modelo: Clasificación de imágenes / columna vertebral de características - Parámetros (M): 5.4 - GMACs: 1.8 - Activaciones (M): 8.7 - Tamaño de imagen: 224 x 224 Papers relacionados: - 'Accelerator-aware Neural Network Design using AutoML': https://arxiv.org/abs/2003.02838 - 'EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks': https://arxiv.org/abs/1905.11946 - 'ResNet strikes back: An improved training procedure in timm': https://arxiv.org/abs/2110.00476

Como usar

Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('efficientnet_es.ra_in1k', pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # desenvainar imagen única en un lote de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapas de Características
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'efficientnet_es.ra_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # desenvainar imagen única en un lote de 1

for o in output:
# imprimir forma de cada mapa de características en la salida
print(o.shape)

Embeddings de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'efficientnet_es.ra_in1k',
pretrained=True,
num_classes=0, # remover clasificador nn.Linear
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida es un tensor de forma (batch_size, num_features)

# o equivalente (sin necesidad de configurar num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# la salida está sin pozeado, un tensor de forma (1, 1280, 7, 7)

output = model.forward_head(output, pre_logits=True)
# la salida es un tensor de forma (1, num_features)

Funcionalidades

Clasificación de imágenes
Extracción de mapas de características
Generación de embeddings de imágenes
Modelo entrenado en ImageNet-1k
Usa RandAugment RA
Optimizador RMSProp con promediado de pesos EMA
Plan de entrenamiento LR con warmup

Casos de uso

Clasificación de imágenes
Extracción de características de imágenes
Generación de representaciones de imágenes