mobilenetv4_conv_small.e1200_r224_in1k

timm

Clasificación de imagen

Un modelo de clasificación de imágenes MobileNet-V4. Entrenado en ImageNet-1k por Ross Wightman. Entrenado con scripts de timm utilizando hiperparámetros inspirados en el artículo de MobileNet-V4 con mejoras de timm. NOTA: Hasta ahora, estos son los únicos pesos conocidos de MNV4. Los pesos oficiales para los modelos de TensorFlow no han sido liberados.

Como usar

Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('mobilenetv4_conv_small.e1200_r224_in1k', pretrained=True)
model = model.eval()

# Obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # deshacer una sola imagen en un lote de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapa de Características
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('mobilenetv4_conv_small.e1200_r224_in1k', pretrained=True, features_only=True)
model = model.eval()

# Obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # deshacer una sola imagen en un lote de 1

for o in output:
    print(o.shape)

Embeddings de Imagen
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('mobilenetv4_conv_small.e1200_r224_in1k', pretrained=True, num_classes=0)
model = model.eval()

# Obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida es un tensor de tamaño (batch_size, num_features)

# o equivalentemente (sin necesidad de configurar num_classes=0)
output = model.forward_features(transforms(img).unsqueeze(0)) # la salida es sin pooling, un tensor de tamaño (1, 960, 7, 7)

output = model.forward_head(output, pre_logits=True) # la salida es un tensor de tamaño (1, num_features)

Funcionalidades

Tipo de modelo: clasificación de imágenes / columna vertebral de características
Parámetros (M): 3.8
GMACs: 0.2
Activaciones (M): 2.0
Tamaño de imagen: entrenamiento = 224 x 224, prueba = 256 x 256
Dataset: ImageNet-1k

Casos de uso

Clasificación de imágenes
Extracción de mapas de características
Generación de embeddings de imágenes