timm/swinv2_cr_tiny_ns_224.sw_in1k
timm
Clasificación de imagen
Una implementación independiente de Swin Transformer V2 lanzada antes del lanzamiento oficial del código. Una colaboración entre Christoph Reich y Ross Wightman, el modelo difiere de la implementación oficial en varios aspectos: - El sesgo de posición relativo MLP usa logaritmo natural sin normalizar sin escalar frente a log2 normalizado, limitado por sigmoide y escalado. - Opción para aplicar LayerNorm al final de cada etapa (variantes 'ns'). - Predeterminado al formato de tensor NCHW en la salida de cada etapa y las características finales. Preentrenado en ImageNet-1k por Ross Wightman.
Como usar
from urllib.request import urlopen
from PIL import Image
import timm
# Cargar la imagen
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
# Crear y evaluar el modelo
model = timm.create_model('swinv2_cr_tiny_ns_224.sw_in1k', pretrained=True)
model = model.eval()
# Obtener transformaciones específicas del modelo
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
# Salida del modelo
output = model(transforms(img).unsqueeze(0))
# Obtener las 5 principales probabilidades y clasificaciones
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
Funcionalidades
- Tipo de modelo: Clasificación de imágenes / Backbone de características
- Parámetros (M): 28.3
- GMACs: 4.7
- Activaciones (M): 28.5
- Tamaño de imagen: 224 x 224
- Artículo: Swin Transformer V2: Scaling Up Capacity and Resolution
Casos de uso
- Clasificación de imágenes
- Extracción de mapa de características
- Generación de embeddings de imágenes