OpenAssistant/reward-model-deberta-v3-base

OpenAssistant

Clasificación de texto

Modelo de recompensa (RM) entrenado para predecir qué respuesta generada es mejor según el juicio de un humano, dada una pregunta. RM son útiles en estos dominios: evaluación de modelos de QA y sirven como puntaje de recompensa en RLHF. Todos los modelos están entrenados en estos conjuntos de datos con la misma semilla de división (si no estaba disponible la división de validación): webgpt_comparisons, summarize_from_feedback, synthetic-instruct-gptj-pairwise.

Como usar

from transformers import AutoModelForSequenceClassification, AutoTokenizer
reward_name = "OpenAssistant/reward-model-deberta-v3-base"
rank_model, tokenizer = AutoModelForSequenceClassification.from_pretrained(reward_name), AutoTokenizer.from_pretrained(reward_name)
question, answer = "Explica la fusión nuclear como si tuviera cinco años", "La fusión nuclear es el proceso por el cual dos o más protones y neutrones se combinan para formar un solo núcleo. Es un proceso muy importante en el universo, ya que es la fuente de energía para las estrellas y galaxias. La fusión nuclear también es un proceso clave en la producción de energía para las plantas de energía nuclear."
inputs = tokenizer(question, answer, return_tensors='pt')
score = rank_model(**inputs).logits[0].cpu().detach()
print(score)

Funcionalidades

Modelo de recompensa entrenado a partir de retroalimentación humana
Evaluación de modelos de QA
Puntaje de recompensa en RLHF

Casos de uso

Evaluación de modelos de preguntas y respuestas (QA)
Puntaje de recompensa en entrenamiento por refuerzo con retroalimentación humana (RLHF)