timm/mobilenetv4_conv_medium.e500_r256_in1k
timm
Clasificación de imagen
Un modelo de clasificación de imágenes MobileNet-V4. Entrenado en ImageNet-1k por Ross Wightman utilizando scripts de timm con hiperparámetros inspirados en el artículo de MobileNet-V4 y con mejoras de timm. NOTA: Hasta ahora, estos son los únicos pesos conocidos de MNV4. Los pesos oficiales para los modelos de TensorFlow no han sido publicados.
Como usar
Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model('mobilenetv4_conv_medium.e500_r256_in1k', pretrained=True)
model = model.eval()
# Obtener las transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # descomprimir imagen única en lote de 1
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
Exposición de Mapas de Características
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'mobilenetv4_conv_medium.e500_r256_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()
# Obtener las transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # descomprimir imagen única en lote de 1
for o in output:
print(o.shape)
Embeddings de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'mobilenetv4_conv_medium.e500_r256_in1k',
pretrained=True,
num_classes=0, # eliminar la capa clasificadora nn.Linear
)
model = model.eval()
# Obtener las transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # la salida es un tensor de forma (batch_size, num_features)
# o equivalentemente (sin necesidad de establecer num_classes=0)
output = model.forward_features(transforms(img).unsqueeze(0))
# la salida es un tensor sin agrupamiento, de forma (1, 960, 8, 8)
output = model.forward_head(output, pre_logits=True)
# la salida es un tensor de forma (1, num_features)
Funcionalidades
- Tipo de modelo: Clasificación de imágenes / columna vertebral de características
- Parámetros (M): 9.7
- GMACs: 1.1
- Activaciones (M): 7.6
- Tamaño de la imagen: entrenamiento = 256 x 256, prueba = 320 x 320
- Conjunto de datos: ImageNet-1k
Casos de uso
- Clasificación de imágenes
- Extracción de mapas de características
- Generación de embeddings de imágenes