timm/swin_s3_base_224.ms_in1k

timm
Clasificación de imagen

El modelo Swin S3 Base 224.ms_in1k está diseñado principalmente para la clasificación de imágenes y como una columna vertebral de características. Este modelo contiene 71.1 millones de parámetros, 13.7 GMACs y 48.3 millones de activaciones. Las imágenes de entrada deben tener un tamaño de 224 x 224 píxeles. El modelo fue entrenado en el conjunto de datos ImageNet-1k y está basado en investigaciones publicadas sobre AutoFormerV2 y Swin Transformer.

Como usar

Clasificación de imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('swin_s3_base_224.ms_in1k', pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir una dimensión para hacer un lote de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de mapas de características

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'swin_s3_base_224.ms_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir una dimensión para hacer un lote de 1

for o in output:
# imprimir la forma de cada mapa de características en la salida
# e.g., para swin_base_patch4_window7_224 (salida NHWC)
#  torch.Size([1, 56, 56, 128])
#  torch.Size([1, 28, 28, 256])
#  torch.Size([1, 14, 14, 512])
#  torch.Size([1, 7, 7, 1024])
# e.g., para swinv2_cr_small_ns_224 (salida NCHW)
#  torch.Size([1, 96, 56, 56])
#  torch.Size([1, 192, 28, 28])
#  torch.Size([1, 384, 14, 14])
#  torch.Size([1, 768, 7, 7])
print(o.shape)

Incrustaciones de imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'swin_s3_base_224.ms_in1k',
pretrained=True,
num_classes=0, # eliminar el clasificador nn.Linear
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida es un tensor con forma (batch_size, num_features)

# o equivalente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# la salida no está agrupada (es decir, un tensor con forma (batch_size, H, W, num_features) para swin / swinv2
# o (batch_size, num_features, H, W) para swinv2_cr

output = model.forward_head(output, pre_logits=True)
# la salida es un tensor con forma (batch_size, num_features)

Funcionalidades

Clasificación de imágenes
Extracción de mapas de características
Generación de incrustaciones de imágenes

Casos de uso

Búsqueda de la mejor arquitectura en el espacio de búsqueda de transformadores de visión
Implementación de ventanas desplazadas para el procesamiento de imágenes a través de transformadores
Desarrollo de aplicaciones que requieren aprender características jerárquicas de imágenes