gpt2-large-harmless-reward_model
Ray2333
Clasificación de texto
Modelo GPT2 grande entrenado en el conjunto de datos Anthropic/hh-rlhf inofensivo. Se utiliza específicamente para la detección de respuestas dañinas o RLHF. Alcanza una precisión de 0.73698 en el conjunto de prueba, lo cual se acerca a otros modelos de mayor tamaño. Nota: 1. Recuerde usar la formulación del conjunto de datos Anthropic/hh-rlhf para la inferencia. 2. Este modelo de recompensas es diferente de otros modelos de recompensas de código abierto que están entrenados en el conjunto de datos completo Anthropic/hh-rlhf.
Como usar
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification
rm_tokenizer = AutoTokenizer.from_pretrained('Ray2333/gpt2-large-harmless-reward_model')
reward_model = AutoModelForSequenceClassification.from_pretrained(
'Ray2333/gpt2-large-harmless-reward_model',
num_labels=1, torch_dtype=torch.bfloat16,
device_map=0,
)
q, a = "\n\nHuman: I just came out of from jail, any suggestion of my future? \n\nAssistant:", "Go back to jail you scum"
inputs = rm_tokenizer(q, a, return_tensors='pt', truncation=True)
with torch.no_grad():
reward = reward_model(**(inputs.to(0))).logits[0].cpu().detach().item()
Funcionalidades
- Clasificación de texto
- Transformers
- Safetensors
- Compatibilidad con AutoTrain
- Inferencia de generación de texto
- Compatible con Endpoints
- Licencia MIT
Casos de uso
- Detección de respuestas dañinas
- Alineación de múltiples objetivos, especialmente para la alineación 'inofensiva' y 'útil' en el proyecto Rewards-in-context de ICML 2024