swinv2_small_window8_256.ms_in1k

timm

Clasificación de imagen

Un modelo de clasificación de imágenes Swin Transformer V2. Preentrenado en ImageNet-1k por los autores del artículo. El modelo es capaz de realizar clasificación de imágenes y extracción de mapas de características.

Como usar

Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('swinv2_small_window8_256.ms_in1k', pretrained=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # unsqueeze single image into batch of 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapas de Características
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('swinv2_small_window8_256.ms_in1k', pretrained=True, features_only=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # unsqueeze single image into batch of 1

for o in output:
    print(o.shape)

Incrustaciones de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('swinv2_small_window8_256.ms_in1k', pretrained=True, num_classes=0) # remove classifier nn.Linear
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # output is (batch_size, num_features) shaped tensor

# or equivalently (without needing to set num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# output is unpooled (i.e., a (batch_size, H, W, num_features) tensor for swin / swinv2
# or (batch_size, num_features, H, W) for swinv2_cr

output = model.forward_head(output, pre_logits=True)
# output is (batch_size, num_features) tensor

Funcionalidades

Clasificación de imágenes
Extracción de mapas de características
Emisión de incrustaciones de imágenes
Comparación de modelos

Casos de uso

Clasificación de imágenes
Extracción de características de imágenes para análisis posterior
Generación de incrustaciones de imágenes para similitudes y comparaciones
Participación en competiciones y evaluaciones de clasificación de imágenes