coatnet_3_rw_224.sw_in12k

timm

Clasificación de imagen

Un modelo específico de clasificación de imágenes CoAtNet entrenado en ImageNet-12k por Ross Wightman utilizando timm. CoAtNet combina bloques MBConv (profundidad-separable) en las primeras etapas con bloques de transformador de auto-atención en las etapas posteriores. La configuración 'rw' es específica de timm y optimizada para su uso con PyTorch. Los modelos con 'tf' coinciden exactamente con los modelos basados en Tensorflow de los autores originales.

Como usar

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('coatnet_3_rw_224.sw_in12k', pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # agregar dimensión de lote

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Funcionalidades

Clasificación de imágenes
Extracción de mapa de características
Embeddings de imágenes
Comparación del modelo por Top-1
Comparación del modelo por rendimiento (muestras/seg)

Casos de uso

Clasificación de imágenes
Extracción de mapa de características
Generación de embeddings de imágenes