microsoft/dit-base-finetuned-rvlcdip
Document Image Transformer (DiT) pre-entrenado en IIT-CDIP (Lewis et al., 2006), un conjunto de datos que incluye 42 millones de imágenes de documentos y ajustado en RVL-CDIP, un conjunto de datos que consta de 400,000 imágenes en escala de grises en 16 clases, con 25,000 imágenes por clase. El DiT es un modelo transformador de codificación (similar a BERT) pre-entrenado en una gran colección de imágenes de manera auto-supervisada. El objetivo de pre-entrenamiento del modelo es predecir tokens visuales desde el codificador de un VAE discreto (dVAE), basado en parches enmascarados. Las imágenes se presentan al modelo como una secuencia de parches de tamaño fijo (resolución 16x16), que se incrustan linealmente.
Como usar
Esta es la forma de usar este modelo en PyTorch:
from transformers import AutoImageProcessor, AutoModelForImageClassification
import torch
from PIL import Image
image = Image.open('path_to_your_document_image').convert('RGB')
processor = AutoImageProcessor.from_pretrained('microsoft/dit-base-finetuned-rvlcdip')
model = AutoModelForImageClassification.from_pretrained('microsoft/dit-base-finetuned-rvlcdip')
inputs = processor(images=image, return_tensors='pt')
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 16 RVL-CDIP classes
predicted_class_idx = logits.argmax(-1).item()
print('Predicted class:', model.config.id2label[predicted_class_idx])
Funcionalidades
- Pre-entrenado en IIT-CDIP
- Ajustado en RVL-CDIP
- Codificador de imágenes en secuencia de parches
- Objective de pre-entrenamiento auto-supervisado
- Modelo transformador similar a BERT
Casos de uso
- Clasificación de imágenes de documentos
- Detección de tablas
- Análisis de diseño de documentos