Ray2333/gpt2-large-helpful-reward_model

Ray2333
Clasificación de texto

Modelo GPT2 grande entrenado en el conjunto de datos Anthropic/hh-rlhf de ayuda. Se utiliza específicamente para la detección de respuestas útiles o RLHF. Logra una precisión de 0.72621 en el conjunto de prueba, lo que casi iguala a otros modelos con tamaños más grandes.

Como usar

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

rm_tokenizer = AutoTokenizer.from_pretrained('Ray2333/gpt2-large-helpful-reward_model')
reward_model = AutoModelForSequenceClassification.from_pretrained(
'Ray2333/gpt2-large-helpful-reward_model',
num_labels=1, torch_dtype=torch.bfloat16,
device_map=0,
)
q, a = "\n\nHumano: Acabo de salir de la cárcel, ¿alguna sugerencia para mi futuro? \n\nAsistente:", "Lo siento, no entiendo."
inputs = rm_tokenizer(q, a, return_tensors='pt', truncation=True)
with torch.no_grad():
reward = reward_model(**(inputs.to(0))).logits[0].cpu().detach().item()

Funcionalidades

Clasificación de texto
Transformers
Safetensors
Compatible con AutoTrain
Inferencia de generación de texto
Compatible con Endpoints de Inferencia
Licencia MIT
Región: US

Casos de uso

Detección de respuestas útiles en el conjunto de datos Anthropic/hh-rlhf
Alineación de múltiples objetivos en el proyecto Rewards-in-context de ICML 2024