mobilenetv4_hybrid_medium.ix_e550_r384_in1k

timm

Clasificación de imagen

Un modelo de clasificación de imágenes MobileNet-V4. Entrenado en ImageNet-1k por Ross Wightman. Entrenado con scripts timm utilizando hiperparámetros inspirados en el artículo de MobileNet-V4 con mejoras de timm. NOTA: Hasta ahora, estos son los únicos pesos MNV4 conocidos. Los pesos oficiales para los modelos de Tensorflow no se han publicado.

Como usar

Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('mobilenetv4_hybrid_medium.ix_e550_r384_in1k', pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # redimensionar imagen única en un lote de 1
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapas de Características
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'mobilenetv4_hybrid_medium.ix_e550_r384_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # redimensionar imagen única en un lote de 1

for o in output:
# imprimir forma de cada mapa de características en la salida
# p.ej.:
#  torch.Size([1, 32, 192, 192])
#  torch.Size([1, 48, 96, 96])
#  torch.Size([1, 80, 48, 48])
#  torch.Size([1, 160, 24, 24])
#  torch.Size([1, 960, 12, 12])

print(o.shape)

Embeddings de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'mobilenetv4_hybrid_medium.ix_e550_r384_in1k',
pretrained=True,
num_classes=0, # remover clasificador nn.Linear
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # salida es un tensor con forma (batch_size, num_features)

# o equivalente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# salida no agrupada, un tensor con forma (1, 960, 12, 12)

output = model.forward_head(output, pre_logits=True)
# salida es un tensor con forma (1, num_features)

Funcionalidades

Tipo de modelo: clasificación de imágenes / espina dorsal de características
Estadísticas del modelo: Parámetros (M): 11.1, GMACs: 3.0, Activaciones (M): 21.2, Tamaño de imagen: entrenamiento = 384 x 384, prueba = 448 x 448
Dataset: ImageNet-1k
Papers: MobileNetV4 -- Modelos Universales para el Ecosistema Móvil: https://arxiv.org/abs/2404.10518, Modelos de Imágenes PyTorch: https://github.com/huggingface/pytorch-image-models

Casos de uso

Clasificación de imágenes
Extracción de mapas de características
Generación de embeddings de imágenes
Comparación del desempeño de varios modelos MobileNetV4