mobilenetv4_hybrid_large.ix_e600_r384_in1k
timm
Clasificación de imagen
Un modelo de clasificación de imágenes MobileNet-V4. Entrenado en ImageNet-1k por Ross Wightman. Entrenado con scripts timm usando hiperparámetros inspirados en el documento de MobileNet-V4 con mejoras de timm. NOTA: Hasta ahora, estos son los únicos pesos MNV4 conocidos. Los pesos oficiales para los modelos de Tensorflow no han sido lanzados.
Como usar
Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('mobilenetv4_hybrid_large.ix_e600_r384_in1k', pretrained=True)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # insertar sola imagen en lote de 1
top5_probabilidades, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
Extracción de Mapas de Características
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('mobilenetv4_hybrid_large.ix_e600_r384_in1k', pretrained=True, features_only=True)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # insertar sola imagen en lote de 1
for o in output:
print(o.shape)
Embeddings de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('mobilenetv4_hybrid_large.ix_e600_r384_in1k', pretrained=True, num_classes=0)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # el resultado es un tensor de forma (batch_size, num_features)
# o equivalente (sin necesidad de establecer num_classes=0)
output = model.forward_features(transforms(img).unsqueeze(0))
# el resultado es no agrupado, un tensor en forma de (1, 960, 12, 12)
output = model.forward_head(output, pre_logits=True)
# el resultado es un tensor en forma de (1, num_features)
Funcionalidades
- Clasificación de imágenes / columna vertebral de características
- Parámetros (M): 37.8
- GMACs: 7.8
- Activaciones (M): 34.5
- Tamaño de imagen: entrenamiento = 384 x 384, prueba = 448 x 448
- Dataset: ImageNet-1k
- Código fuente de Tensorflow original: https://github.com/tensorflow/models/tree/master/official/vision
Casos de uso
- Clasificación de imágenes
- Extracción de mapas de características
- Generación de embeddings de imágenes