RLHFlow/RewardModel-Mistral-7B-for-DPA-v1
RLHFlow
Clasificaci贸n de texto
Esta es la tarjeta de modelo de un modelo de 馃 transformers que se ha subido al Hub. Esta tarjeta de modelo ha sido generada autom谩ticamente.
Como usar
from transformers import AutoModelForSequenceClassification, AutoTokenizer
import torch
device = 'cuda'
path = "RLHFlow/RewardModel-Mistral-7B-for-DPA-v1"
rm = AutoModelForSequenceClassification.from_pretrained(path, trust_remote_code=True).to(device)
tokenizer = AutoTokenizer.from_pretrained(path)
input_template = "[INST] Debes leer la siguiente conversaci贸n con cuidado y calificar la respuesta del asistente del 0 al 100 en estos aspectos: utilidad, correcci贸n, coherencia, honestidad, complejidad, verbosidad\n\nUsuario: {prompt}\n\nAsistente: {response} [/INST]"
# Usar una muestra del conjunto de validaci贸n de HelpSteer
prompt = '驴Cu谩les son algunos sin贸nimos de la palabra "beautiful"?'
response = "Nicely, Beautifully, Handsome, Stunning, Wonderful, Gorgeous, Pretty, Stunning, Elegant"
model_inputs = tokenizer(input_template.format(prompt=prompt, response=response), return_tensors="pt").to(device)
with torch.no_grad():
score = rm(**model_inputs).logits.squeeze().cpu().float().numpy()
print(score)
# [68.99269 69.62718 76.23071 33.48785 35.853596 63.833366 55.58917 68.7175 59.552124 46.465595]
# Convertir de nuestra escala (0-100) a la escala de HelpSteer (0-4)
helpsteer_rewards_pred = (score[:5]-10)/20
print(helpsteer_rewards_pred)
# [2.9496346 2.981359 3.3115356 1.1743925 1.2926798]
# Las recompensas reales del conjunto de datos de HelpSteer para esta muestra son [3,3,4,2,2]
Funcionalidades
- Clasificador de secuencias
- Compatible con transformers
- Maneja tensores seguros en BF16 y F32
- C贸digo personalizado para inferencia
- Finetuneado desde 'Mistral-7B-Instruct-v0.2'
- Entrenado para alineaci贸n de preferencias direccionales con recompensas multi-objetivo
Casos de uso
- Clasificaci贸n de secuencias
- Evaluaci贸n de la respuesta de asistentes en chat
- Alineaci贸n direccional de preferencias del usuario con recompensas multi-objetivo