vit-base-patch16-imagenet21k-augreg
Modelo Vision Transformer (ViT) preentrenado en ImageNet-21k (14 millones de imágenes, 21,843 clases) a una resolución de 224x224. Fue introducido en el artículo 'An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale' y mejorado en el artículo de seguimiento 'How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers'. Los pesos se convirtieron del archivo 'B_16-i21k-300ep-lr_0.001-aug_medium1-wd_0.1-do_0.0-sd_0.0.npz', almacenado en los depósitos GCS presentados en el repositorio original.
Como usar
Uso del modelo
El modelo no tiene suficiente actividad para ser desplegado en la API de Inferencia (sin servidor) todavía. Aumenta su visibilidad social y vuelve más tarde, o despliega en los Endpoints de Inferencia (dedicados).
Funcionalidades
- Clasificación de imágenes
- Transformadores
- Modelo entrenado con Safetensors
- Tamaño del modelo de 103M parámetros
- Tipo de tensor: F32
Casos de uso
- Clasificación de imágenes a escala
- Reconocimiento de imágenes