timm/swinv2_large_window12to24_192to384.ms_in22k_ft_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes Swin Transformer V2. Preentrenado en ImageNet-22k y ajustado en ImageNet-1k por los autores del artículo. El modelo es del tipo clasificación de imágenes/material primario de características. Tiene 196.7 millones de parámetros, 116.1 GMAC y 407.8 millones de activaciones, y procesa imágenes de tamaño 384 x 384.

Como usar

Clasificación de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('swinv2_large_window12to24_192to384.ms_in22k_ft_in1k', pretrained=True)
model = model.eval()

# Obtener las transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # unsqueeze una sola imagen en un lote de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapas de Características

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model(
'swinv2_large_window12to24_192to384.ms_in22k_ft_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()

# Obtener las transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # unsqueeze una sola imagen en un lote de 1

for o in output:
# Imprimir la forma de cada mapa de características en la salida
print(o.shape)

Embeddings de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model(
'swinv2_large_window12to24_192to384.ms_in22k_ft_in1k',
pretrained=True,
num_classes=0, # eliminar el clasificador nn.Linear
)
model = model.eval()

# Obtener las transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida es un tensor de forma (batch_size, num_features)

# o equivalentemente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# la salida no es agrupada (es decir, un tensor de forma (batch_size, H, W, num_features) para swin/swinv2
# o (batch_size, num_features, H, W) para swinv2_cr

output = model.forward_head(output, pre_logits=True)
# la salida es un tensor de forma (batch_size, num_features)

Funcionalidades

Clasificación de imágenes
Extracción de mapas de características
Embeddings de imágenes
Comparación de modelos

Casos de uso

Clasificación de imágenes de alta precisión
Extracción de características para utilizar en otros modelos
Generación de embeddings de imágenes para tareas de visión por computadora
Comparación y evaluación de métricas de modelos