microsoft/beit-large-patch16-224-pt22k-ft22k
microsoft
Clasificación de imagen
El modelo BEiT (large-sized model, fine-tuned on ImageNet-22k) es un Transformer de Visión (ViT), que es un modelo de codificador transformer similar a BERT. En contraste con el modelo original de ViT, BEiT está preentrenado en una gran colección de imágenes de manera auto-supervisada, específicamente en ImageNet-21k, con una resolución de 224x224 píxeles. El objetivo de preentrenamiento para el modelo es predecir tokens visuales del codificador VQ-VAE de DALL-E de OpenAI, basado en parches enmascarados. Luego, el modelo fue ajustado de manera supervisada en ImageNet (también conocido como ILSVRC2012), un conjunto de datos que comprende 1 millón de imágenes y 1,000 clases, también a una resolución de 224x224.
Como usar
Funcionalidades
- Transformador de Visión (ViT)
- Preentrenado de manera auto-supervisada en ImageNet-21k
- Resolución de imágenes de 224x224 píxeles
- División de imágenes en secuencias de parches de tamaño fijo (16x16)
- Incorporaciones de posición relativas
Casos de uso
- Este modelo puede utilizarse principalmente para la clasificación de imágenes.
- Puede aplicarse en sistemas de reconocimiento de imágenes y en proyectos de visión por computadora.