vit_medium_patch16_rope_reg1_gap_256.sbb_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes Vision Transformer (ViT). Esta es una variación específica de timm de la arquitectura con embeddings de posición rotativos (ROPE), registros y pooling promedio global.

Como usar

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('vit_medium_patch16_rope_reg1_gap_256.sbb_in1k', pretrained=True)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # unsqueeze imagen única en un lote de 1

# probabilidades y índices de clase top5
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Funcionalidades

Clasificación de imágenes
Extracción de mapas de características
Embeddings de imágenes

Casos de uso

Clasificación de imágenes
Extracción de características
Generación de embeddings visuales