efficientvit_m1.r224_in1k
timm
Clasificación de imagen
EfficientViT (MSRA) modelo de clasificación de imágenes. Entrenado en ImageNet-1k por los autores del documento. Este modelo de visión por transformador eficiente está diseñado para clasificación de imágenes y como una columna vertebral de características. Fue entrenado en el conjunto de datos ImageNet-1k y se caracteriza por su eficiencia en el uso de memoria, utilizando Atención de Grupo en Cascada.
Como usar
Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('efficientvit_m1.r224_in1k', pretrained=True)
model = model.eval()
# obtener las transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # añadir una dimensión para hacer un lote de 1
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
Extracción de Mapa de Características
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('efficientvit_m1.r224_in1k', pretrained=True, features_only=True)
model = model.eval()
# obtener las transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # añadir una dimensión para hacer un lote de 1
for o in output:
print(o.shape)
Embeddings de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('efficientvit_m1.r224_in1k', pretrained=True, num_classes=0) # eliminar la capa de clasificador nn.Linear
model = model.eval()
# obtener las transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # el resultado es un tensor con forma (batch_size, num_features)
# o de manera equivalente (sin necesidad de establecer num_classes=0)
output = model.forward_features(transforms(img).unsqueeze(0))
# el resultado no está agrupado, es un tensor con forma (1, 192, 4, 4)
output = model.forward_head(output, pre_logits=True)
# el resultado es un tensor con forma (1, num_features)
Funcionalidades
- Tipo de modelo: Clasificación de imágenes / columna vertebral de características
- Parámetros (M): 3.0
- GMACs: 0.2
- Activaciones (M): 1.3
- Tamaño de imagen: 224 x 224
Casos de uso
- Clasificación de imágenes
- Extracción de mapas de características
- Generación de embeddings de imágenes