mobilenetv3_large_100.ra_in1k
timm
Clasificación de imagen
Un modelo de clasificación de imágenes MobileNet-v3. Entrenado en ImageNet-1k en timm usando una plantilla de receta descrita a continuación. Detalles de la receta: Receta de RandAugment RA. Inspirado y evolucionado de las recetas de EfficientNet RandAugment. Publicado como receta B en ResNet Strikes Back. Optimizador RMSProp (comportamiento TF 1.0), promedio de pesos EMA. Programa de LR de paso (decrecimiento exponencial con escalonamiento) con calentamiento.
Como usar
Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen( 'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png' ))
model = timm.create_model('mobilenetv3_large_100.ra_in1k',pretrained=True)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # un solo lote de imágenes en batch de 1
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
Extracción de Mapas de Características
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen( 'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png' ))
model = timm.create_model('mobilenetv3_large_100.ra_in1k', pretrained=True, features_only=True,)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # a single batch of 1
for o in output:
print(o.shape)
# por ejemplo:
# torch.Size([1, 16, 112, 112])
# torch.Size([1, 24, 56, 56])
# torch.Size([1, 40, 28, 28])
# torch.Size([1, 112, 14, 14])
# torch.Size([1, 960, 7, 7])
Embeddings de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen( 'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png' ))
model = timm.create_model('mobilenetv3_large_100.ra_in1k', pretrained=True, num_classes=0, ) # eliminar clf nn.Linear
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # el tensor tiene forma de (batch_size, número de características)
# o equivalentemente (sin necesidad de establecer num_classes=0)
output = model.forward_features(transforms(img).unsqueeze(0))
# el tensor de salida no agrupado tiene forma de (1, 960, 7, 7)
output = model.forward_head(output, pre_logits=True)
# el tensor de salida tiene forma de (1, número de características)
Funcionalidades
- Tipo de modelo: Clasificación de imágenes / columna vertebral de características
- Parámetros (M): 5.5
- GMACs: 0.2
- Activaciones (M): 4.4
- Tamaño de la imagen: 224 x 224
Casos de uso
- Clasificación de Imágenes
- Extracción de Mapas de Características
- Embeddings de Imágenes