timm/mobilenetv4_conv_blur_medium.e500_r224_in1k
timm
Clasificación de imagen
Un modelo de clasificación de imágenes MobileNet-V4 (con BlurPool Anti-Aliasing). Entrenado en ImageNet-1k por Ross Wightman. Entrenado con scripts timm utilizando hiperparámetros inspirados en el artículo de MobileNet-V4 con mejoras de timm. NOTA: hasta ahora, estos son los únicos pesos conocidos de MNV4. Los pesos oficiales para los modelos de Tensorflow no se han publicado.
Como usar
Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model('mobilenetv4_conv_blur_medium.e500_r224_in1k', pretrained=True)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # unsqueeze single image into batch of 1
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
Extracción de Mapas de Características
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'mobilenetv4_conv_blur_medium.e500_r224_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # unsqueeze single image into batch of 1
for o in output:
print(o.shape)
Embeddings de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'mobilenetv4_conv_blur_medium.e500_r224_in1k',
pretrained=True,
num_classes=0, # eliminar clasificador nn.Linear
)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # output is (batch_size, num_features) shaped tensor
# o equivalentemente (sin necesidad de configurar num_classes=0)
output = model.forward_features(transforms(img).unsqueeze(0))
# el output no está agrupado, es un tensor con forma (1, 960, 7, 7)
output = model.forward_head(output, pre_logits=True)
# el output es un tensor con forma (1, num_features)
Funcionalidades
- Tipo de modelo: Clasificación de imágenes / columna vertebral de características
- Parámetros (M): 9.7
- GMACs: 1.2
- Activaciones (M): 8.6
- Tamaño de imagen: entrenamiento = 224 x 224, prueba = 256 x 256
- Dataset: ImageNet-1k
Casos de uso
- Clasificación de Imágenes
- Extracción de Mapas de Características
- Embeddings de Imágenes