FsfairX-LLaMA3-RM-v0.1

sfairXC
Clasificación de texto

Esta función de recompensa se puede usar para RLHF, incluyendo PPO, SFT iterativo, DPO iterativo. La licencia se deriva de PKU-Alignment/PKU-SafeRLHF-30K. El modelo base es meta-llama/Meta-Llama-3-8B-Instruct. Utilizamos el script de entrenamiento en https://github.com/WeiXiongUST/RLHF-Reward-Modeling. Este modelo de recompensa es el SOTA modelo de recompensa de código abierto (20 de abril de 2024) en Reward-Bench.

Como usar

from transformers import AutoTokenizer, pipeline rm_tokenizer = AutoTokenizer.from_pretrained('sfairXC/FsfairX-LLaMA3-RM-v0.1') dispositivo = 0 # acelerador.dispositivo rm_pipe = pipeline( 'sentiment-analysis', model='sfairXC/FsfairX-LLaMA3-RM-v0.1', #dispositivo='auto', dispositivo=dispositivo, tokenizer=rm_tokenizer, model_kwargs={'torch_dtype': torch.bfloat16} )

pipe_kwargs = { 'return_all_scores': True, 'function_to_apply': 'none', 'batch_size': 1 }

chat = [ {'rol': 'usuario', 'contenido': 'Hola, ¿cómo estás?'}, {'rol': 'asistente', 'contenido': 'Estoy muy bien. ¿Cómo puedo ayudarte hoy?'}, {'rol': 'usuario', 'contenido': '¡Me gustaría mostrar cómo funciona la plantilla de chat!'}, ]

textos_de_prueba = [tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=False).replace(tokenizer.bos_token, '')] respuestas_pipe = rm_pipe(textos_de_prueba, **pipe_kwargs) recompensas = [salida[0]['puntuación'] para salida en respuestas_pipe]

Funcionalidades

Clasificación de texto
Transformers
Safetensors
Compatible con AutoTrain
Inferencia de generación de texto
Compatible con puntos de inferencia
arxiv:2312.11456
Licencia: CC BY-NC 4.0

Casos de uso

Análisis de sentimiento
Entrenamiento de modelos de recompensa
Alineación de modelos de generación