alirezamsh/quip-512-mocha
Este es el módulo de puntuación de span, utilizado en el documento RQUGE para evaluar las preguntas generadas en la tarea de generación de preguntas. El modelo se utilizó originalmente en QAFactEval para calcular la similitud semántica del span de la respuesta generada, dada la respuesta de referencia, el contexto y la pregunta en la tarea de respuesta a preguntas. Proporciona una puntuación de superposición de respuesta del 1 al 5. El evaluador está entrenado en su conjunto de datos MOCHA (inicializado desde Jia et al. (2021)), que consiste en 40k juicios recopilados por crowdsourcing sobre salidas de modelos de QA. La entrada al modelo se define como: [CLS] pregunta [q] respuesta dorada [r] respuesta predicha [c] contexto.
Como usar
Puedes usar el siguiente script para obtener la similitud semántica de la respuesta predicha dada la respuesta dorada, el contexto y la pregunta.
from transformers import AutoModelForSequenceClassification, AutoTokenizer
sp_scorer = AutoModelForSequenceClassification.from_pretrained('alirezamsh/quip-512-mocha')
tokenizer_sp = AutoTokenizer.from_pretrained('alirezamsh/quip-512-mocha')
sp_scorer.eval()
pred_answer = ""
gold_answer = ""
question = ""
context = ""
input_sp = f"{question} {gold_answer} " \
f" {pred_answer} {context}"
inputs = tokenizer_sp(input_sp, max_length=512, truncation=True,
padding="max_length", return_tensors="pt")
outputs = sp_scorer(input_ids=inputs["input_ids"], attention_mask=inputs["attention_mask"])
print(outputs)
Funcionalidades
- Clasificación de texto
- Transformers
- PyTorch
- Safetensors
- Compatible con AutoTrain
- Compatible con Endpoints de Inferencia
- Licencia BSD-3
Casos de uso
- Evaluación de la consistencia factual en modelos de resumido
- Medición de la similitud semántica en tareas de generación de preguntas y respuestas
- Mejora del rendimiento de modelos de QA en conjuntos de datos fuera del dominio