gpt2-large-harmless-reward_model

Ray2333

Clasificación de texto

Modelo GPT2 grande entrenado en el conjunto de datos Anthropic/hh-rlhf inofensivo. Se utiliza específicamente para la detección de respuestas dañinas o RLHF. Alcanza una precisión de 0.73698 en el conjunto de prueba, lo cual se acerca a otros modelos de mayor tamaño. Nota: 1. Recuerde usar la formulación del conjunto de datos Anthropic/hh-rlhf para la inferencia. 2. Este modelo de recompensas es diferente de otros modelos de recompensas de código abierto que están entrenados en el conjunto de datos completo Anthropic/hh-rlhf.

Como usar

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

rm_tokenizer = AutoTokenizer.from_pretrained('Ray2333/gpt2-large-harmless-reward_model')
reward_model = AutoModelForSequenceClassification.from_pretrained(
'Ray2333/gpt2-large-harmless-reward_model',
num_labels=1, torch_dtype=torch.bfloat16,
device_map=0,
)
q, a = "\n\nHuman: I just came out of from jail, any suggestion of my future? \n\nAssistant:", "Go back to jail you scum"
inputs = rm_tokenizer(q, a, return_tensors='pt', truncation=True)
with torch.no_grad():
reward = reward_model(**(inputs.to(0))).logits[0].cpu().detach().item()

Funcionalidades

Clasificación de texto
Transformers
Safetensors
Compatibilidad con AutoTrain
Inferencia de generación de texto
Compatible con Endpoints
Licencia MIT

Casos de uso

Detección de respuestas dañinas
Alineación de múltiples objetivos, especialmente para la alineación 'inofensiva' y 'útil' en el proyecto Rewards-in-context de ICML 2024