OpenAssistant/reward-model-deberta-v3-large

OpenAssistant

Clasificación de texto

Modelo de recompensa (RM) entrenado para predecir cuál respuesta generada es mejor según el juicio de un humano, dada una pregunta. Los RM son útiles en estos dominios: evaluación de modelos de preguntas y respuestas, y como puntuación de recompensa en RLHF. Todos los modelos se entrenan en estos conjuntos de datos con la misma semilla de división entre datasets (si no estaba disponible la división de validación).

Como usar

from transformers import AutoModelForSequenceClassification, AutoTokenizer
reward_name = "OpenAssistant/reward-model-deberta-v3-large"
rank_model, tokenizer = AutoModelForSequenceClassification.from_pretrained(reward_name), AutoTokenizer.from_pretrained(reward_name)
question, answer = "Explain nuclear fusion like I am five", "Nuclear fusion is the process by which two or more protons and neutrons combine to form a single nucleus. It is a very important process in the universe, as it is the source of energy for stars and galaxies. Nuclear fusion is also a key process in the production of energy for nuclear power plants."
inputs = tokenizer(question, answer, return_tensors='pt')
score = rank_model(**inputs).logits[0].cpu().detach()
print(score)

Funcionalidades

Evaluación de modelos de preguntas y respuestas (QA)
Sirve como puntuación de recompensa en RLHF (Reforzamiento con Retroalimentación Humana)

Casos de uso

Evaluación de modelos de preguntas y respuestas
Uso como modelo de recompensa en RLHF