equivalencia_de_respuestas_distilbert
zli12321
Clasificación de texto
QA-Evaluation-Metrics es un paquete de Python rápido y ligero para evaluar modelos de preguntas y respuestas y la solicitud de modelos de lenguaje grandes de código abierto y de caja negra. Proporciona varias métricas básicas y eficientes para evaluar el rendimiento de los modelos de QA.
Como usar
Para instalar el paquete, ejecute el siguiente comando:
pip install qa-metrics
El paquete de Python actualmente proporciona seis métodos de evaluación de QA.
Ejemplo de uso de em_match
from qa_metrics.em import em_match
reference_answer = ["The Frog Prince", "The Princess and the Frog"]
candidate_answer = "The movie \"The Princess and the Frog\" is loosely based off the Brother Grimm's \"Iron Henry\""
match_result = em_match(reference_answer, candidate_answer)
print("Exact Match: ", match_result)
Ejemplo de uso de f1_score_with_precision_recall
from qa_metrics.f1 import f1_match,f1_score_with_precision_recall
f1_stats = f1_score_with_precision_recall(reference_answer[0], candidate_answer)
print("F1 stats: ", f1_stats)
match_result = f1_match(reference_answer, candidate_answer, threshold=0.5)
print("F1 Match: ", match_result)
Ejemplo de uso de PEDANT
from qa_metrics.pedant import PEDANT
question = "Which movie is loosley based off the Brother Grimm's Iron Henry?"
pedant = PEDANT()
scores = pedant.get_scores(reference_answer, candidate_answer, question)
max_pair, highest_scores = pedant.get_highest_score(reference_answer, candidate_answer, question)
match_result = pedant.evaluate(reference_answer, candidate_answer, question)
print("Max Pair: %s; Highest Score: %s" % (max_pair, highest_scores))
print("Score: %s; PANDA Match: %s" % (scores, match_result))
Funcionalidades
- Actualizado a la versión 0.2.17
- Soporte para la solicitud de modelos de la serie GPT de OPENAI y la serie Claude
- Soporte para la solicitud de varios modelos de código abierto como LLaMA-2-70B-chat, LLaVA-1.5, etc., mediante la llamada a la API de deepinfra
- Modelo tiny-bert entrenado para evaluación de QA
- Soporte para la descarga y coincidencia de modelos directamente mediante TransformerMatcher
Casos de uso
- Evaluación de respuestas a preguntas en datasets de QA como NQ-OPEN, Hotpot QA, TriviaQA, SQuAD, etc.
- Solicitud de modelos de lenguaje grandes (LLMs) tanto de código abierto como de caja negra
- Evaluación eficiente y robusta de preguntas/respuestas tipo
- Coincidencia y evaluación de respuestas utilizando modelos de transformación como BERT, distilBERT, etc.