timm/swin_small_patch4_window7_224.ms_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes Swin Transformer. Preentrenado en ImageNet-1k por los autores del artículo. Detalles del modelo: Tipo de modelo: Clasificación de imágenes / columna vertebral de características Estadísticas del modelo: Parámetros (M): 49.6 GMACs: 8.8 Activaciones (M): 27.5 Tamaño de imagen: 224 x 224 Artículos: Swin Transformer: Hierarchical Vision Transformer usando ventanas desplazadas: https://arxiv.org/abs/2103.14030 Original: https://github.com/microsoft/Swin-Transformer Dataset: ImageNet-1k

Como usar

Clasificación de imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('swin_small_patch4_window7_224.ms_in1k', pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # aplicar una única imagen a un lote de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de mapas de características

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'swin_small_patch4_window7_224.ms_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # aplicar una única imagen a un lote de 1

for o in output:
# imprimir la forma de cada mapa de características en la salida
e.g. para swin_base_patch4_window7_224 (salida NHWC)
#  torch.Size([1, 56, 56, 128])
#  torch.Size([1, 28, 28, 256])
#  torch.Size([1, 14, 14, 512])
#  torch.Size([1, 7, 7, 1024])
e.g. para swinv2_cr_small_ns_224 (salida NCHW)
#  torch.Size([1, 96, 56, 56])
#  torch.Size([1, 192, 28, 28])
#  torch.Size([1, 384, 14, 14])
#  torch.Size([1, 768, 7, 7])
print(o.shape)

Incrustaciones de imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'swin_small_patch4_window7_224.ms_in1k',
pretrained=True,
num_classes=0, # eliminar clasificador nn.Linear
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida es un tensor de la forma (batch_size, num_features)

# o equivalentemente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# la salida no está agrupada (es decir, un tensor de la forma (batch_size, H, W, num_features) para swin / swinv2
o (batch_size, num_features, H, W) para swinv2_cr)

output = model.forward_head(output, pre_logits=True)
# la salida es un tensor de la forma (batch_size, num_features)

Comparación de modelos Explora el conjunto de datos y las métricas de rendimiento de este modelo en los resultados del modelo timm.

Funcionalidades

Clasificación de imágenes
Extracción de mapas de características
Incrustaciones de imágenes

Casos de uso

Clasificación de imágenes
Extracción de mapas de características
Generación de incrustaciones de imágenes