mobilenetv4_hybrid_medium.ix_e550_r384_in1k
timm
Clasificación de imagen
Un modelo de clasificación de imágenes MobileNet-V4. Entrenado en ImageNet-1k por Ross Wightman. Entrenado con scripts timm utilizando hiperparámetros inspirados en el artículo de MobileNet-V4 con mejoras de timm. NOTA: Hasta ahora, estos son los únicos pesos MNV4 conocidos. Los pesos oficiales para los modelos de Tensorflow no se han publicado.
Como usar
Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model('mobilenetv4_hybrid_medium.ix_e550_r384_in1k', pretrained=True)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # redimensionar imagen única en un lote de 1
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
Extracción de Mapas de Características
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'mobilenetv4_hybrid_medium.ix_e550_r384_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # redimensionar imagen única en un lote de 1
for o in output:
# imprimir forma de cada mapa de características en la salida
# p.ej.:
# torch.Size([1, 32, 192, 192])
# torch.Size([1, 48, 96, 96])
# torch.Size([1, 80, 48, 48])
# torch.Size([1, 160, 24, 24])
# torch.Size([1, 960, 12, 12])
print(o.shape)
Embeddings de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'mobilenetv4_hybrid_medium.ix_e550_r384_in1k',
pretrained=True,
num_classes=0, # remover clasificador nn.Linear
)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # salida es un tensor con forma (batch_size, num_features)
# o equivalente (sin necesidad de establecer num_classes=0)
output = model.forward_features(transforms(img).unsqueeze(0))
# salida no agrupada, un tensor con forma (1, 960, 12, 12)
output = model.forward_head(output, pre_logits=True)
# salida es un tensor con forma (1, num_features)
Funcionalidades
- Tipo de modelo: clasificación de imágenes / espina dorsal de características
- Estadísticas del modelo: Parámetros (M): 11.1, GMACs: 3.0, Activaciones (M): 21.2, Tamaño de imagen: entrenamiento = 384 x 384, prueba = 448 x 448
- Dataset: ImageNet-1k
- Papers: MobileNetV4 -- Modelos Universales para el Ecosistema Móvil: https://arxiv.org/abs/2404.10518, Modelos de Imágenes PyTorch: https://github.com/huggingface/pytorch-image-models
Casos de uso
- Clasificación de imágenes
- Extracción de mapas de características
- Generación de embeddings de imágenes
- Comparación del desempeño de varios modelos MobileNetV4