efficientvit_m1.r224_in1k

timm
Clasificación de imagen

EfficientViT (MSRA) modelo de clasificación de imágenes. Entrenado en ImageNet-1k por los autores del documento. Este modelo de visión por transformador eficiente está diseñado para clasificación de imágenes y como una columna vertebral de características. Fue entrenado en el conjunto de datos ImageNet-1k y se caracteriza por su eficiencia en el uso de memoria, utilizando Atención de Grupo en Cascada.

Como usar

Clasificación de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('efficientvit_m1.r224_in1k', pretrained=True)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir una dimensión para hacer un lote de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapa de Características

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('efficientvit_m1.r224_in1k', pretrained=True, features_only=True)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir una dimensión para hacer un lote de 1

for o in output:
    print(o.shape)

Embeddings de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('efficientvit_m1.r224_in1k', pretrained=True, num_classes=0)  # eliminar la capa de clasificador nn.Linear
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # el resultado es un tensor con forma (batch_size, num_features)

# o de manera equivalente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# el resultado no está agrupado, es un tensor con forma (1, 192, 4, 4)

output = model.forward_head(output, pre_logits=True)
# el resultado es un tensor con forma (1, num_features)

Funcionalidades

Tipo de modelo: Clasificación de imágenes / columna vertebral de características
Parámetros (M): 3.0
GMACs: 0.2
Activaciones (M): 1.3
Tamaño de imagen: 224 x 224

Casos de uso

Clasificación de imágenes
Extracción de mapas de características
Generación de embeddings de imágenes