timm/swinv2_cr_tiny_ns_224.sw_in1k

timm
Clasificación de imagen

Una implementación independiente de Swin Transformer V2 lanzada antes del lanzamiento oficial del código. Una colaboración entre Christoph Reich y Ross Wightman, el modelo difiere de la implementación oficial en varios aspectos: - El sesgo de posición relativo MLP usa logaritmo natural sin normalizar sin escalar frente a log2 normalizado, limitado por sigmoide y escalado. - Opción para aplicar LayerNorm al final de cada etapa (variantes 'ns'). - Predeterminado al formato de tensor NCHW en la salida de cada etapa y las características finales. Preentrenado en ImageNet-1k por Ross Wightman.

Como usar

from urllib.request import urlopen
from PIL import Image
import timm

# Cargar la imagen
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

# Crear y evaluar el modelo
model = timm.create_model('swinv2_cr_tiny_ns_224.sw_in1k', pretrained=True)
model = model.eval()

# Obtener transformaciones específicas del modelo
 data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

# Salida del modelo
output = model(transforms(img).unsqueeze(0))

# Obtener las 5 principales probabilidades y clasificaciones
 top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Funcionalidades

Tipo de modelo: Clasificación de imágenes / Backbone de características
Parámetros (M): 28.3
GMACs: 4.7
Activaciones (M): 28.5
Tamaño de imagen: 224 x 224
Artículo: Swin Transformer V2: Scaling Up Capacity and Resolution

Casos de uso

Clasificación de imágenes
Extracción de mapa de características
Generación de embeddings de imágenes