FsfairX-LLaMA3-RM-v0.1
Esta función de recompensa se puede usar para RLHF, incluyendo PPO, SFT iterativo, DPO iterativo. La licencia se deriva de PKU-Alignment/PKU-SafeRLHF-30K. El modelo base es meta-llama/Meta-Llama-3-8B-Instruct. Utilizamos el script de entrenamiento en https://github.com/WeiXiongUST/RLHF-Reward-Modeling. Este modelo de recompensa es el SOTA modelo de recompensa de código abierto (20 de abril de 2024) en Reward-Bench.
Como usar
from transformers import AutoTokenizer, pipeline
rm_tokenizer = AutoTokenizer.from_pretrained('sfairXC/FsfairX-LLaMA3-RM-v0.1')
dispositivo = 0 # acelerador.dispositivo
rm_pipe = pipeline(
'sentiment-analysis',
model='sfairXC/FsfairX-LLaMA3-RM-v0.1',
#dispositivo='auto',
dispositivo=dispositivo,
tokenizer=rm_tokenizer,
model_kwargs={'torch_dtype': torch.bfloat16}
)
pipe_kwargs = {
'return_all_scores': True,
'function_to_apply': 'none',
'batch_size': 1
}
chat = [
{'rol': 'usuario', 'contenido': 'Hola, ¿cómo estás?'},
{'rol': 'asistente', 'contenido': 'Estoy muy bien. ¿Cómo puedo ayudarte hoy?'},
{'rol': 'usuario', 'contenido': '¡Me gustaría mostrar cómo funciona la plantilla de chat!'},
]
textos_de_prueba = [tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=False).replace(tokenizer.bos_token, '')]
respuestas_pipe = rm_pipe(textos_de_prueba, **pipe_kwargs)
recompensas = [salida[0]['puntuación'] para salida en respuestas_pipe]
Funcionalidades
- Clasificación de texto
- Transformers
- Safetensors
- Compatible con AutoTrain
- Inferencia de generación de texto
- Compatible con puntos de inferencia
- arxiv:2312.11456
- Licencia: CC BY-NC 4.0
Casos de uso
- Análisis de sentimiento
- Entrenamiento de modelos de recompensa
- Alineación de modelos de generación