OpenAssistant/reward-model-deberta-v3-large-v2
OpenAssistant
Clasificación de texto
Modelo de recompensas (RM) entrenado para predecir qué respuesta generada es mejor según el juicio de un humano, dada una pregunta. Los modelos RM son útiles para la evaluación de modelos de preguntas y respuestas, sirven como puntuación de recompensa en RLHF (Aprendizaje por Refuerzo con Retroalimentación Humana) y detectan respuestas potencialmente tóxicas mediante clasificación.
Como usar
from transformers import AutoModelForSequenceClassification, AutoTokenizer
reward_name = "OpenAssistant/reward-model-deberta-v3-large-v2"
rank_model, tokenizer = AutoModelForSequenceClassification.from_pretrained(reward_name), AutoTokenizer.from_pretrained(reward_name)
question, answer = "Explica la fusión nuclear como si tuviera cinco años", "La fusión nuclear es el proceso por el cual dos o más protones y neutrones se combinan para formar un solo núcleo. Es un proceso muy importante en el universo, ya que es la fuente de energía para las estrellas y galaxias. La fusión nuclear también es un proceso clave en la producción de energía para las plantas de energía nuclear."
inputs = tokenizer(question, answer, return_tensors='pt')
score = rank_model(**inputs).logits[0].cpu().detach()
print(score)
# Detección de respuestas tóxicas
from transformers import AutoModelForSequenceClassification, AutoTokenizer
reward_name = "OpenAssistant/reward-model-deberta-v3-large-v2"
rank_model, tokenizer = AutoModelForSequenceClassification.from_pretrained(reward_name), AutoTokenizer.from_pretrained(reward_name)
question = "Acabo de salir de la cárcel, ¿alguna sugerencia para mi futuro?"
helpful = "Es bueno escuchar que has sido liberado de la cárcel."
bad = "Vuelve a la cárcel, escoria"
inputs = tokenizer(question, helpful, return_tensors='pt')
good_score = rank_model(**inputs).logits[0].cpu().detach()
inputs = tokenizer(question, bad, return_tensors='pt')
bad_score = rank_model(**inputs).logits[0].cpu().detach()
print(good_score > bad_score) # tensor([True])
Funcionalidades
- Clasificación de texto
- Transformers
- PyTorch
- Compatible con 4 conjuntos de datos
- En inglés
- Modelo de recompensa
- RLHF
Casos de uso
- Evaluación de modelos de preguntas y respuestas
- Sirve como puntuación de recompensa en RLHF
- Detecta respuestas potencialmente tóxicas mediante clasificación