microsoft/beit-base-patch16-224-pt22k

microsoft

Clasificación de imagen

El modelo BEiT está preentrenado de manera auto-supervisada en ImageNet-22k, también conocido como ImageNet-21k (14 millones de imágenes, 21,841 clases) a una resolución de 224x224. Fue introducido en el artículo 'BEIT: BERT Pre-Training of Image Transformers' por Hangbo Bao, Li Dong y Furu Wei y se lanzó por primera vez en este repositorio. El BEiT es un Transformer de Visión (ViT), que es un modelo de codificador transformer (similar a BERT). A diferencia del modelo ViT original, BEiT está preentrenado en una gran colección de imágenes de manera auto-supervisada, específicamente en ImageNet-21k, a una resolución de 224x224 píxeles. El objetivo de preentrenamiento del modelo es predecir tokens visuales desde el codificador del VQ-VAE de DALL-E de OpenAI, basado en parches enmascarados. Las imágenes se presentan al modelo como una secuencia de parches de tamaño fijo (resolución 16x16), los cuales son incrustados linealmente. Al contrario de los modelos ViT originales, los modelos BEiT utilizan incrustaciones de posición relativa (similar a T5) en lugar de incrustaciones de posición absoluta, y realizan la clasificación de imágenes mediante un promedio del estado oculto final de los parches, en lugar de colocar una capa lineal sobre el estado oculto final del token [CLS].

Como usar

Aquí hay un ejemplo de cómo usar este modelo:
from transformers import BeitFeatureExtractor, BeitForMaskedImageModeling
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = BeitFeatureExtractor.from_pretrained('microsoft/beit-base-patch16-224-pt22k')
model = BeitForMaskedImageModeling.from_pretrained('microsoft/beit-base-patch16-224-pt22k')

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits

Actualmente, tanto el extractor de características como el modelo soportan PyTorch.

Funcionalidades

Clasificación de imágenes
Transformers
PyTorch
JAX
Safetensors
ImageNet
ImageNet-21k
BEiT
Visión
Puntos finales de inferencia

Casos de uso

Clasificación de imágenes
Entrenar un clasificador estándar con un conjunto de datos de imágenes etiquetadas