poolformer_s12.sail_in1k

timm

Clasificación de imagen

Un modelo de clasificación de imágenes PoolFormer (un MetaFormer). Entrenado en ImageNet-1k por los autores del artículo. Detalles del modelo: Tipo de modelo: Clasificación de imágenes Estadísticas del modelo: - Parámetros (M): 11.9 - GMACs: 1.8 - Activaciones (M): 5.5 - Tamaño de imagen: 224 x 224 Artículo: MetaFormer Is Actually What You Need for Vision: https://arxiv.org/abs/2210.13452 Original: https://github.com/sail-sg/poolformer Dataset: ImageNet-1k

Como usar

Para la clasificación de imágenes:
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('poolformer_s12.sail_in1k', pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir la imagen única en un batch de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Para la extracción de mapas de características:
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('poolformer_s12.sail_in1k', pretrained=True, features_only=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir la imagen única en un batch de 1

for o in output:
    print(o.shape)

Para los embeddings de imágenes:
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('poolformer_s12.sail_in1k', pretrained=True, num_classes=0)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida es un tensor con forma (batch_size, num_features)

# o ampliamente equivalente (sin necesidad de configurar num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# la salida no está agrupada, es un tensor con forma (1, 512, 7, 7)

output = model.forward_head(output, pre_logits=True)
# la salida es un tensor con forma (1, num_features)

Funcionalidades

Clasificación de imágenes
Extracción de mapas de características
Embeddings de imágenes

Casos de uso

Clasificación de imágenes
Extracción de mapas de características para análisis más detallado
Generación de embeddings de imágenes para varias tareas de visión