microsoft/beit-large-patch16-224-pt22k-ft22k

microsoft

Clasificación de imagen

El modelo BEiT (large-sized model, fine-tuned on ImageNet-22k) es un Transformer de Visión (ViT), que es un modelo de codificador transformer similar a BERT. En contraste con el modelo original de ViT, BEiT está preentrenado en una gran colección de imágenes de manera auto-supervisada, específicamente en ImageNet-21k, con una resolución de 224x224 píxeles. El objetivo de preentrenamiento para el modelo es predecir tokens visuales del codificador VQ-VAE de DALL-E de OpenAI, basado en parches enmascarados. Luego, el modelo fue ajustado de manera supervisada en ImageNet (también conocido como ILSVRC2012), un conjunto de datos que comprende 1 millón de imágenes y 1,000 clases, también a una resolución de 224x224.

Como usar

Funcionalidades

Transformador de Visión (ViT)
Preentrenado de manera auto-supervisada en ImageNet-21k
Resolución de imágenes de 224x224 píxeles
División de imágenes en secuencias de parches de tamaño fijo (16x16)
Incorporaciones de posición relativas

Casos de uso

Este modelo puede utilizarse principalmente para la clasificación de imágenes.
Puede aplicarse en sistemas de reconocimiento de imágenes y en proyectos de visión por computadora.