vit_medium_patch16_rope_reg1_gap_256.sbb_in1k
timm
Clasificación de imagen
Un modelo de clasificación de imágenes Vision Transformer (ViT). Esta es una variación específica de timm de la arquitectura con embeddings de posición rotativos (ROPE), registros y pooling promedio global.
Como usar
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('vit_medium_patch16_rope_reg1_gap_256.sbb_in1k', pretrained=True)
model = model.eval()
# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # unsqueeze imagen única en un lote de 1
# probabilidades y índices de clase top5
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
Funcionalidades
- Clasificación de imágenes
- Extracción de mapas de características
- Embeddings de imágenes
Casos de uso
- Clasificación de imágenes
- Extracción de características
- Generación de embeddings visuales