mobilenetv4_hybrid_large.ix_e600_r384_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes MobileNet-V4. Entrenado en ImageNet-1k por Ross Wightman. Entrenado con scripts timm usando hiperparámetros inspirados en el documento de MobileNet-V4 con mejoras de timm. NOTA: Hasta ahora, estos son los únicos pesos MNV4 conocidos. Los pesos oficiales para los modelos de Tensorflow no han sido lanzados.

Como usar

Clasificación de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('mobilenetv4_hybrid_large.ix_e600_r384_in1k', pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # insertar sola imagen en lote de 1

top5_probabilidades, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapas de Características

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('mobilenetv4_hybrid_large.ix_e600_r384_in1k', pretrained=True, features_only=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # insertar sola imagen en lote de 1

for o in output:
    print(o.shape)

Embeddings de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('mobilenetv4_hybrid_large.ix_e600_r384_in1k', pretrained=True, num_classes=0)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # el resultado es un tensor de forma (batch_size, num_features)

# o equivalente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# el resultado es no agrupado, un tensor en forma de (1, 960, 12, 12)

output = model.forward_head(output, pre_logits=True)
# el resultado es un tensor en forma de (1, num_features)

Funcionalidades

Clasificación de imágenes / columna vertebral de características
Parámetros (M): 37.8
GMACs: 7.8
Activaciones (M): 34.5
Tamaño de imagen: entrenamiento = 384 x 384, prueba = 448 x 448
Dataset: ImageNet-1k
Código fuente de Tensorflow original: https://github.com/tensorflow/models/tree/master/official/vision

Casos de uso

Clasificación de imágenes
Extracción de mapas de características
Generación de embeddings de imágenes