equivalencia_de_respuestas_distilbert

zli12321
Clasificación de texto

QA-Evaluation-Metrics es un paquete de Python rápido y ligero para evaluar modelos de preguntas y respuestas y la solicitud de modelos de lenguaje grandes de código abierto y de caja negra. Proporciona varias métricas básicas y eficientes para evaluar el rendimiento de los modelos de QA.

Como usar

Para instalar el paquete, ejecute el siguiente comando:

pip install qa-metrics

El paquete de Python actualmente proporciona seis métodos de evaluación de QA.

Ejemplo de uso de em_match

from qa_metrics.em import em_match

reference_answer = ["The Frog Prince", "The Princess and the Frog"]
candidate_answer = "The movie \"The Princess and the Frog\" is loosely based off the Brother Grimm's \"Iron Henry\""
match_result = em_match(reference_answer, candidate_answer)
print("Exact Match: ", match_result)

Ejemplo de uso de f1_score_with_precision_recall

from qa_metrics.f1 import f1_match,f1_score_with_precision_recall

f1_stats = f1_score_with_precision_recall(reference_answer[0], candidate_answer)
print("F1 stats: ", f1_stats)

match_result = f1_match(reference_answer, candidate_answer, threshold=0.5)
print("F1 Match: ", match_result)

Ejemplo de uso de PEDANT

from qa_metrics.pedant import PEDANT

question = "Which movie is loosley based off the Brother Grimm's Iron Henry?"
pedant = PEDANT()
scores = pedant.get_scores(reference_answer, candidate_answer, question)
max_pair, highest_scores = pedant.get_highest_score(reference_answer, candidate_answer, question)
match_result = pedant.evaluate(reference_answer, candidate_answer, question)
print("Max Pair: %s; Highest Score: %s" % (max_pair, highest_scores))
print("Score: %s; PANDA Match: %s" % (scores, match_result))

Funcionalidades

Actualizado a la versión 0.2.17
Soporte para la solicitud de modelos de la serie GPT de OPENAI y la serie Claude
Soporte para la solicitud de varios modelos de código abierto como LLaMA-2-70B-chat, LLaVA-1.5, etc., mediante la llamada a la API de deepinfra
Modelo tiny-bert entrenado para evaluación de QA
Soporte para la descarga y coincidencia de modelos directamente mediante TransformerMatcher

Casos de uso

Evaluación de respuestas a preguntas en datasets de QA como NQ-OPEN, Hotpot QA, TriviaQA, SQuAD, etc.
Solicitud de modelos de lenguaje grandes (LLMs) tanto de código abierto como de caja negra
Evaluación eficiente y robusta de preguntas/respuestas tipo
Coincidencia y evaluación de respuestas utilizando modelos de transformación como BERT, distilBERT, etc.