timm/resnetv2_152x4_bit.goog_in21k_ft_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes ResNet-V2-BiT (Big Transfer con preactivación ResNet). Preentrenado en ImageNet-21k y afinado en ImageNet-1k por los autores del artículo. Utiliza Normalización de Grupo (GN) en combinación con Estandarización de Peso (WS) en lugar de Normalización por Lotes (BN).

Como usar

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('resnetv2_152x4_bit.goog_in21k_ft_in1k', pretrained=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # unsqueeze single image into batch of 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Funcionalidades

Tipo de modelo: Clasificación de imágenes / columna vertebral de características
Parámetros (M): 936.5
GMACs: 844.8
Activaciones (M): 414.3
Tamaño de la imagen: 480 x 480

Casos de uso

Clasificación de imágenes
Extracción de mapas de características
Embeddings de imágenes