timm/resmlp_12_224.fb_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes ResMLP. Entrenado en ImageNet-1k por los autores del artículo. Modelo de clasificación de imágenes con redes feedforward para clasificación de imágenes con entrenamiento eficiente en datos.

Como usar

Clasificación de imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('resmlp_12_224.fb_in1k', pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # poner en batch la imagen única

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Incrustaciones de imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'resmlp_12_224.fb_in1k',
pretrained=True,
num_classes=0, # eliminar nn.Linear del clasificador
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida es un tensor con forma (batch_size, num_features)

# o equivalentemente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# la salida no es agrupada, es un tensor con forma (1, 196, 384)

output = model.forward_head(output, pre_logits=True)
# la salida es un tensor con forma (1, num_features)

Funcionalidades

Tipo de modelo: Clasificación de imágenes / columna vertebral de características
Parámetros (M): 15.4
GMACs: 3.0
Activaciones (M): 5.5
Tamaño de imagen: 224 x 224

Casos de uso

Clasificación de imágenes
Generación de incrustaciones de imágenes