OpenAssistant/reward-model-deberta-v3-base
OpenAssistant
Clasificación de texto
Modelo de recompensa (RM) entrenado para predecir qué respuesta generada es mejor según el juicio de un humano, dada una pregunta. RM son útiles en estos dominios: evaluación de modelos de QA y sirven como puntaje de recompensa en RLHF. Todos los modelos están entrenados en estos conjuntos de datos con la misma semilla de división (si no estaba disponible la división de validación): webgpt_comparisons, summarize_from_feedback, synthetic-instruct-gptj-pairwise.
Como usar
from transformers import AutoModelForSequenceClassification, AutoTokenizer
reward_name = "OpenAssistant/reward-model-deberta-v3-base"
rank_model, tokenizer = AutoModelForSequenceClassification.from_pretrained(reward_name), AutoTokenizer.from_pretrained(reward_name)
question, answer = "Explica la fusión nuclear como si tuviera cinco años", "La fusión nuclear es el proceso por el cual dos o más protones y neutrones se combinan para formar un solo núcleo. Es un proceso muy importante en el universo, ya que es la fuente de energía para las estrellas y galaxias. La fusión nuclear también es un proceso clave en la producción de energía para las plantas de energía nuclear."
inputs = tokenizer(question, answer, return_tensors='pt')
score = rank_model(**inputs).logits[0].cpu().detach()
print(score)
Funcionalidades
- Modelo de recompensa entrenado a partir de retroalimentación humana
- Evaluación de modelos de QA
- Puntaje de recompensa en RLHF
Casos de uso
- Evaluación de modelos de preguntas y respuestas (QA)
- Puntaje de recompensa en entrenamiento por refuerzo con retroalimentación humana (RLHF)