longformer-base-mpdocvqa
rubentito
Pregunta y respuesta
Longformer base entrenado en SQuAD v1 del hub de Valhalla y afinado en el dataset Multipage DocVQA (MP-DocVQA). Este modelo se utilizó como línea de base en los transformadores multimodales jerárquicos para Multi-Page DocVQA. Los resultados en el conjunto de datos MP-DocVQA se informan en la Tabla 2. Los hiperparámetros de entrenamiento se pueden encontrar en la Tabla 8 del Apéndice D.
Como usar
Cómo usar
from transformers import LongformerTokenizerFast, LongformerForQuestionAnswering
tokenizer = LongformerTokenizerFast.from_pretrained("rubentito/longformer-base-mpdocvqa")
model = LongformerForQuestionAnswering.from_pretrained("rubentito/longformer-base-mpdocvqa")
text = "Huggingface ha democratizado el PLN. Muchas gracias a Huggingface por esto."
question = "¿Qué ha hecho Huggingface?"
encoding = tokenizer(question, text, return_tensors="pt")
output = model(encoding["input_ids"], attention_mask=encoding["attention_mask"])
start_pos = torch.argmax(output.start_logits, dim=-1).item()
end_pos = torch.argmax(output.end_logits, dim=-1).item()
context_tokens = tokenizer.convert_ids_to_tokens(encoding["input_ids"][0].tolist())
answer_tokens = context_tokens[start_pos: end_pos + 1]
pred_answer = tokenizer.decode(tokenizer.convert_tokens_to_ids(answer_tokens))
Funcionalidades
- Transformers
- PyTorch
- Question Answering
- DocVQA
- Document Question Answering
- Document Visual Question Answering
- Inference Endpoints
Casos de uso
- Responder preguntas sobre varios documentos
- Evaluar la capacidad de razonamiento del modelo en tareas de VQA basadas en texto
- Predecir la página donde se encuentra la información necesaria para responder una pregunta