alirezamsh/quip-512-mocha

alirezamsh
Clasificación de texto

Este es el módulo de puntuación de span, utilizado en el documento RQUGE para evaluar las preguntas generadas en la tarea de generación de preguntas. El modelo se utilizó originalmente en QAFactEval para calcular la similitud semántica del span de la respuesta generada, dada la respuesta de referencia, el contexto y la pregunta en la tarea de respuesta a preguntas. Proporciona una puntuación de superposición de respuesta del 1 al 5. El evaluador está entrenado en su conjunto de datos MOCHA (inicializado desde Jia et al. (2021)), que consiste en 40k juicios recopilados por crowdsourcing sobre salidas de modelos de QA. La entrada al modelo se define como: [CLS] pregunta [q] respuesta dorada [r] respuesta predicha [c] contexto.

Como usar

Puedes usar el siguiente script para obtener la similitud semántica de la respuesta predicha dada la respuesta dorada, el contexto y la pregunta.

from transformers import AutoModelForSequenceClassification, AutoTokenizer
sp_scorer = AutoModelForSequenceClassification.from_pretrained('alirezamsh/quip-512-mocha')
tokenizer_sp = AutoTokenizer.from_pretrained('alirezamsh/quip-512-mocha')
sp_scorer.eval()

pred_answer = ""
gold_answer = ""
question = ""
context = ""

input_sp = f"{question} {gold_answer} " \
f" {pred_answer} {context}"

inputs = tokenizer_sp(input_sp, max_length=512, truncation=True, 
padding="max_length", return_tensors="pt")

outputs = sp_scorer(input_ids=inputs["input_ids"], attention_mask=inputs["attention_mask"])
print(outputs)

Funcionalidades

Clasificación de texto
Transformers
PyTorch
Safetensors
Compatible con AutoTrain
Compatible con Endpoints de Inferencia
Licencia BSD-3

Casos de uso

Evaluación de la consistencia factual en modelos de resumido
Medición de la similitud semántica en tareas de generación de preguntas y respuestas
Mejora del rendimiento de modelos de QA en conjuntos de datos fuera del dominio