NCSOFT/Llama-3-OffsetBias-RM-8B

NCSOFT

Clasificación de texto

Llama-3-OffsetBias-RM-8B es un modelo de recompensa entrenado en el conjunto de datos OffsetBias. Está diseñado para ser más robusto frente a varios sesgos de evaluación comúnmente encontrados en modelos de evaluación. El modelo se presenta en el artículo 'OffsetBias: Aprovechando Datos Desviados para Afinar Evaluadores'. Utiliza sfairXC/FsfairX-LLaMA3-RM-v0.1 como modelo base, que está construido con Meta Llama 3. Un modelo intermedio de recompensa se entrena a partir de Llama-3-8B-Instruct usando un subconjunto del conjunto de datos utilizado en el entrenamiento del modelo FsfairX-LLaMA3-RM, combinado con el conjunto de datos NCSOFT/offsetbias. El modelo intermedio se fusiona luego con el modelo FsfairX-LLaMA3-RM para crear Llama-3-OffsetBias-RM-8B.

Como usar

Importar bibliotecas requeridas:
from transformers import AutoTokenizer, pipeline

model_name = 'NCSOFT/Llama-3-OffsetBias-RM-8B'
rm_tokenizer = AutoTokenizer.from_pretrained(model_name)
rm_pipe = pipeline(
'sentiment-analysis',
model=model_name,
device='auto',
tokenizer=rm_tokenizer,
model_kwargs={'torch_dtype': torch.bfloat16}
)

Configuración de parámetros:
pipe_kwargs = {
'return_all_scores': True,
'function_to_apply': 'none',
'batch_size': 1
}

chat = [
{'role': 'user', 'content': 'Hello, how are you?'},
{'role': 'assistant', 'content': 'I'm doing great. How can I help you today?'},
{'role': 'user', 'content': 'I'd like to show off how chat templating works!'},
]

test_texts = [tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=False).replace(tokenizer.bos_token, '')]
pipe_outputs = rm_pipe(test_texts, **pipe_kwargs)
rewards = [output[0]['score'] for output in pipe_outputs]

Funcionalidades

Clasificación de texto
Transformers
Safetensors
Compuesto por múltiples conjuntos de datos

Casos de uso

Clasificación de sentimientos
Análisis de seguridad
Evaluación de razonamiento
Evaluación de instrucciones anidadas