longformer-base-mpdocvqa

rubentito
Pregunta y respuesta

Longformer base entrenado en SQuAD v1 del hub de Valhalla y afinado en el dataset Multipage DocVQA (MP-DocVQA). Este modelo se utilizó como línea de base en los transformadores multimodales jerárquicos para Multi-Page DocVQA. Los resultados en el conjunto de datos MP-DocVQA se informan en la Tabla 2. Los hiperparámetros de entrenamiento se pueden encontrar en la Tabla 8 del Apéndice D.

Como usar

Cómo usar

from transformers import LongformerTokenizerFast, LongformerForQuestionAnswering

tokenizer = LongformerTokenizerFast.from_pretrained("rubentito/longformer-base-mpdocvqa")
model = LongformerForQuestionAnswering.from_pretrained("rubentito/longformer-base-mpdocvqa")

text = "Huggingface ha democratizado el PLN. Muchas gracias a Huggingface por esto."
question = "¿Qué ha hecho Huggingface?"

encoding = tokenizer(question, text, return_tensors="pt")
output = model(encoding["input_ids"], attention_mask=encoding["attention_mask"])

start_pos = torch.argmax(output.start_logits, dim=-1).item()
end_pos = torch.argmax(output.end_logits, dim=-1).item()

context_tokens = tokenizer.convert_ids_to_tokens(encoding["input_ids"][0].tolist())
answer_tokens = context_tokens[start_pos: end_pos + 1]
pred_answer = tokenizer.decode(tokenizer.convert_tokens_to_ids(answer_tokens))

Funcionalidades

Transformers
PyTorch
Question Answering
DocVQA
Document Question Answering
Document Visual Question Answering
Inference Endpoints

Casos de uso

Responder preguntas sobre varios documentos
Evaluar la capacidad de razonamiento del modelo en tareas de VQA basadas en texto
Predecir la página donde se encuentra la información necesaria para responder una pregunta