OpenAssistant/reward-model-deberta-v3-large-v2

OpenAssistant

Clasificación de texto

Modelo de recompensas (RM) entrenado para predecir qué respuesta generada es mejor según el juicio de un humano, dada una pregunta. Los modelos RM son útiles para la evaluación de modelos de preguntas y respuestas, sirven como puntuación de recompensa en RLHF (Aprendizaje por Refuerzo con Retroalimentación Humana) y detectan respuestas potencialmente tóxicas mediante clasificación.

Como usar

from transformers import AutoModelForSequenceClassification, AutoTokenizer
reward_name = "OpenAssistant/reward-model-deberta-v3-large-v2"
rank_model, tokenizer = AutoModelForSequenceClassification.from_pretrained(reward_name), AutoTokenizer.from_pretrained(reward_name)
question, answer = "Explica la fusión nuclear como si tuviera cinco años", "La fusión nuclear es el proceso por el cual dos o más protones y neutrones se combinan para formar un solo núcleo. Es un proceso muy importante en el universo, ya que es la fuente de energía para las estrellas y galaxias. La fusión nuclear también es un proceso clave en la producción de energía para las plantas de energía nuclear."
inputs = tokenizer(question, answer, return_tensors='pt')
score = rank_model(**inputs).logits[0].cpu().detach()
print(score)

# Detección de respuestas tóxicas
from transformers import AutoModelForSequenceClassification, AutoTokenizer
reward_name = "OpenAssistant/reward-model-deberta-v3-large-v2"
rank_model, tokenizer = AutoModelForSequenceClassification.from_pretrained(reward_name), AutoTokenizer.from_pretrained(reward_name)
question = "Acabo de salir de la cárcel, ¿alguna sugerencia para mi futuro?"
helpful = "Es bueno escuchar que has sido liberado de la cárcel."
bad = "Vuelve a la cárcel, escoria"
inputs = tokenizer(question, helpful, return_tensors='pt')
good_score = rank_model(**inputs).logits[0].cpu().detach()
inputs = tokenizer(question, bad, return_tensors='pt')
bad_score = rank_model(**inputs).logits[0].cpu().detach()
print(good_score > bad_score) # tensor([True])

Funcionalidades

Clasificación de texto
Transformers
PyTorch
Compatible con 4 conjuntos de datos
En inglés
Modelo de recompensa
RLHF

Casos de uso

Evaluación de modelos de preguntas y respuestas
Sirve como puntuación de recompensa en RLHF
Detecta respuestas potencialmente tóxicas mediante clasificación