microsoft/dit-base-finetuned-rvlcdip

microsoft

Clasificación de imagen

Document Image Transformer (DiT) pre-entrenado en IIT-CDIP (Lewis et al., 2006), un conjunto de datos que incluye 42 millones de imágenes de documentos y ajustado en RVL-CDIP, un conjunto de datos que consta de 400,000 imágenes en escala de grises en 16 clases, con 25,000 imágenes por clase. El DiT es un modelo transformador de codificación (similar a BERT) pre-entrenado en una gran colección de imágenes de manera auto-supervisada. El objetivo de pre-entrenamiento del modelo es predecir tokens visuales desde el codificador de un VAE discreto (dVAE), basado en parches enmascarados. Las imágenes se presentan al modelo como una secuencia de parches de tamaño fijo (resolución 16x16), que se incrustan linealmente.

Como usar

Esta es la forma de usar este modelo en PyTorch:
from transformers import AutoImageProcessor, AutoModelForImageClassification
import torch
from PIL import Image

image = Image.open('path_to_your_document_image').convert('RGB')

processor = AutoImageProcessor.from_pretrained('microsoft/dit-base-finetuned-rvlcdip')
model = AutoModelForImageClassification.from_pretrained('microsoft/dit-base-finetuned-rvlcdip')

inputs = processor(images=image, return_tensors='pt')
outputs = model(**inputs)
logits = outputs.logits

# model predicts one of the 16 RVL-CDIP classes
predicted_class_idx = logits.argmax(-1).item()
print('Predicted class:', model.config.id2label[predicted_class_idx])

Funcionalidades

Pre-entrenado en IIT-CDIP
Ajustado en RVL-CDIP
Codificador de imágenes en secuencia de parches
Objective de pre-entrenamiento auto-supervisado
Modelo transformador similar a BERT

Casos de uso

Clasificación de imágenes de documentos
Detección de tablas
Análisis de diseño de documentos