timm/resnetv2_152x4_bit.goog_in21k_ft_in1k
timm
Clasificación de imagen
Un modelo de clasificación de imágenes ResNet-V2-BiT (Big Transfer con preactivación ResNet). Preentrenado en ImageNet-21k y afinado en ImageNet-1k por los autores del artículo. Utiliza Normalización de Grupo (GN) en combinación con Estandarización de Peso (WS) en lugar de Normalización por Lotes (BN).
Como usar
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('resnetv2_152x4_bit.goog_in21k_ft_in1k', pretrained=True)
model = model.eval()
# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # unsqueeze single image into batch of 1
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
Funcionalidades
- Tipo de modelo: Clasificación de imágenes / columna vertebral de características
- Parámetros (M): 936.5
- GMACs: 844.8
- Activaciones (M): 414.3
- Tamaño de la imagen: 480 x 480
Casos de uso
- Clasificación de imágenes
- Extracción de mapas de características
- Embeddings de imágenes