vit-base-patch16-imagenet21k-augreg

cs-giung
Clasificación de imagen

Modelo Vision Transformer (ViT) preentrenado en ImageNet-21k (14 millones de imágenes, 21,843 clases) a una resolución de 224x224. Fue introducido en el artículo 'An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale' y mejorado en el artículo de seguimiento 'How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers'. Los pesos se convirtieron del archivo 'B_16-i21k-300ep-lr_0.001-aug_medium1-wd_0.1-do_0.0-sd_0.0.npz', almacenado en los depósitos GCS presentados en el repositorio original.

Como usar

Uso del modelo

El modelo no tiene suficiente actividad para ser desplegado en la API de Inferencia (sin servidor) todavía. Aumenta su visibilidad social y vuelve más tarde, o despliega en los Endpoints de Inferencia (dedicados).

Funcionalidades

Clasificación de imágenes
Transformadores
Modelo entrenado con Safetensors
Tamaño del modelo de 103M parámetros
Tipo de tensor: F32

Casos de uso

Clasificación de imágenes a escala
Reconocimiento de imágenes