timm/vit_base_patch16_rope_reg1_gap_256.sbb_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes Vision Transformer (ViT). Esta es una variación específica de la arquitectura de timm con incrustaciones de posición rotatoria (ROPE), registros y agrupamiento promedio global. Entrenado en ImageNet-1k en timm usando una plantilla de receta especificada.

Como usar

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('vit_base_patch16_rope_reg1_gap_256.sbb_in1k', pretrained=True)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # usar unsqueeze para convertir la imagen única en un lote de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

# Extracción de mapas de características
model = timm.create_model('vit_base_patch16_rope_reg1_gap_256.sbb_in1k', pretrained=True, features_only=True)
model = model.eval()

output = model(transforms(img).unsqueeze(0))  # usar unsqueeze para convertir la imagen única en un lote de 1

for o in output:
    print(o.shape)

# Generación de incrustaciones de imágenes
model = timm.create_model('vit_base_patch16_rope_reg1_gap_256.sbb_in1k', pretrained=True, num_classes=0)  # eliminar la capa del clasificador
model = model.eval()

output = model(transforms(img).unsqueeze(0))  # la salida es un tensor con forma (batch_size, num_features)

Funcionalidades

Clasificación de imágenes
Extracción de mapas de características
Generación de incrustaciones de imágenes

Casos de uso

Clasificación de imágenes
Extracción de mapas de características
Generación de incrustaciones de imágenes para aplicaciones específicas