coatnet_3_rw_224.sw_in12k
timm
Clasificación de imagen
Un modelo específico de clasificación de imágenes CoAtNet entrenado en ImageNet-12k por Ross Wightman utilizando timm. CoAtNet combina bloques MBConv (profundidad-separable) en las primeras etapas con bloques de transformador de auto-atención en las etapas posteriores. La configuración 'rw' es específica de timm y optimizada para su uso con PyTorch. Los modelos con 'tf' coinciden exactamente con los modelos basados en Tensorflow de los autores originales.
Como usar
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model('coatnet_3_rw_224.sw_in12k', pretrained=True)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # agregar dimensión de lote
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
Funcionalidades
- Clasificación de imágenes
- Extracción de mapa de características
- Embeddings de imágenes
- Comparación del modelo por Top-1
- Comparación del modelo por rendimiento (muestras/seg)
Casos de uso
- Clasificación de imágenes
- Extracción de mapa de características
- Generación de embeddings de imágenes