RLHFlow/RewardModel-Mistral-7B-for-DPA-v1

RLHFlow

Clasificación de texto

Esta es la tarjeta de modelo de un modelo de 🤗 transformers que se ha subido al Hub. Esta tarjeta de modelo ha sido generada automáticamente.

Como usar

from transformers import AutoModelForSequenceClassification, AutoTokenizer
import torch

device = 'cuda'
path = "RLHFlow/RewardModel-Mistral-7B-for-DPA-v1"
rm = AutoModelForSequenceClassification.from_pretrained(path, trust_remote_code=True).to(device)
tokenizer = AutoTokenizer.from_pretrained(path)

input_template = "[INST] Debes leer la siguiente conversación con cuidado y calificar la respuesta del asistente del 0 al 100 en estos aspectos: utilidad, corrección, coherencia, honestidad, complejidad, verbosidad\n\nUsuario: {prompt}\n\nAsistente: {response} [/INST]"

# Usar una muestra del conjunto de validación de HelpSteer
prompt = '¿Cuáles son algunos sinónimos de la palabra "beautiful"?'
response = "Nicely, Beautifully, Handsome, Stunning, Wonderful, Gorgeous, Pretty, Stunning, Elegant"

model_inputs = tokenizer(input_template.format(prompt=prompt, response=response), return_tensors="pt").to(device)
with torch.no_grad():
  score = rm(**model_inputs).logits.squeeze().cpu().float().numpy()

print(score)
# [68.99269  69.62718  76.23071  33.48785  35.853596 63.833366 55.58917 68.7175 59.552124 46.465595]

# Convertir de nuestra escala (0-100) a la escala de HelpSteer (0-4)
helpsteer_rewards_pred = (score[:5]-10)/20
print(helpsteer_rewards_pred)
# [2.9496346 2.981359  3.3115356 1.1743925 1.2926798]
# Las recompensas reales del conjunto de datos de HelpSteer para esta muestra son [3,3,4,2,2]

Funcionalidades

Clasificador de secuencias
Compatible con transformers
Maneja tensores seguros en BF16 y F32
Código personalizado para inferencia
Finetuneado desde 'Mistral-7B-Instruct-v0.2'
Entrenado para alineación de preferencias direccionales con recompensas multi-objetivo

Casos de uso

Clasificación de secuencias
Evaluación de la respuesta de asistentes en chat
Alineación direccional de preferencias del usuario con recompensas multi-objetivo