timm/vit_base_patch16_rope_reg1_gap_256.sbb_in1k
timm
Clasificación de imagen
Un modelo de clasificación de imágenes Vision Transformer (ViT). Esta es una variación específica de la arquitectura de timm con incrustaciones de posición rotatoria (ROPE), registros y agrupamiento promedio global. Entrenado en ImageNet-1k en timm usando una plantilla de receta especificada.
Como usar
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('vit_base_patch16_rope_reg1_gap_256.sbb_in1k', pretrained=True)
model = model.eval()
# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # usar unsqueeze para convertir la imagen única en un lote de 1
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
# Extracción de mapas de características
model = timm.create_model('vit_base_patch16_rope_reg1_gap_256.sbb_in1k', pretrained=True, features_only=True)
model = model.eval()
output = model(transforms(img).unsqueeze(0)) # usar unsqueeze para convertir la imagen única en un lote de 1
for o in output:
print(o.shape)
# Generación de incrustaciones de imágenes
model = timm.create_model('vit_base_patch16_rope_reg1_gap_256.sbb_in1k', pretrained=True, num_classes=0) # eliminar la capa del clasificador
model = model.eval()
output = model(transforms(img).unsqueeze(0)) # la salida es un tensor con forma (batch_size, num_features)
Funcionalidades
- Clasificación de imágenes
- Extracción de mapas de características
- Generación de incrustaciones de imágenes
Casos de uso
- Clasificación de imágenes
- Extracción de mapas de características
- Generación de incrustaciones de imágenes para aplicaciones específicas