mobilenetv3_large_100.ra_in1k

timm

Clasificación de imagen

Un modelo de clasificación de imágenes MobileNet-v3. Entrenado en ImageNet-1k en timm usando una plantilla de receta descrita a continuación. Detalles de la receta: Receta de RandAugment RA. Inspirado y evolucionado de las recetas de EfficientNet RandAugment. Publicado como receta B en ResNet Strikes Back. Optimizador RMSProp (comportamiento TF 1.0), promedio de pesos EMA. Programa de LR de paso (decrecimiento exponencial con escalonamiento) con calentamiento.

Como usar

Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen( 'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png' ))

model = timm.create_model('mobilenetv3_large_100.ra_in1k',pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # un solo lote de imágenes en batch de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapas de Características
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen( 'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png' ))

model = timm.create_model('mobilenetv3_large_100.ra_in1k', pretrained=True, features_only=True,)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # a single batch of 1

for o in output:
    print(o.shape)
# por ejemplo:
#  torch.Size([1, 16, 112, 112])
#  torch.Size([1, 24, 56, 56])
#  torch.Size([1, 40, 28, 28])
#  torch.Size([1, 112, 14, 14])
#  torch.Size([1, 960, 7, 7])

Embeddings de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen( 'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png' ))

model = timm.create_model('mobilenetv3_large_100.ra_in1k', pretrained=True, num_classes=0, ) # eliminar clf nn.Linear
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # el tensor tiene forma de (batch_size, número de características)

# o equivalentemente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# el tensor de salida no agrupado tiene forma de (1, 960, 7, 7)

output = model.forward_head(output, pre_logits=True)
# el tensor de salida tiene forma de (1, número de características)

Funcionalidades

Tipo de modelo: Clasificación de imágenes / columna vertebral de características
Parámetros (M): 5.5
GMACs: 0.2
Activaciones (M): 4.4
Tamaño de la imagen: 224 x 224

Casos de uso

Clasificación de Imágenes
Extracción de Mapas de Características
Embeddings de Imágenes