RM-Gemma-2B

weqweasdas
Clasificación de texto

El modelo de recompensa se entrena a partir del modelo base google/gemma-2b-it. El script de entrenamiento está disponible en https://github.com/WeiXiongUST/RLHF-Reward-Modeling.

Como usar

from transformers import AutoTokenizer, pipeline
rm_tokenizer = AutoTokenizer.from_pretrained("weqweasdas/RM-Gemma-2B")
device = 0 # accelerator.device
rm_pipe = pipeline(
"sentiment-analysis",
model="weqweasdas/RM-Gemma-2B",
#device="auto",
device=device,
tokenizer=rm_tokenizer,
model_kwargs={"torch_dtype": torch.bfloat16}
)

pipe_kwargs = {
"return_all_scores": True,
"function_to_apply": "none",
"batch_size": 1
}

chat = [
{"role": "user", "content": "Hello, how are you?"},
{"role": "assistant", "content": "I'm doing great. How can I help you today?"},
{"role": "user", "content": "I'd like to show off how chat templating works!"},
]

test_texts = [rm_tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=False).replace(rm_tokenizer.bos_token, "")]
pipe_outputs = rm_pipe(test_texts, **pipe_kwargs)
rewards = [output[0]["score"] for output in pipe_outputs]

Funcionalidades

Clasificación de Textos
Compatible con AutoTrain
Inferencia de Generación de Textos
Puntos de Inferencia
Transformers
Safetensors

Casos de uso

Clasificación de textos
Análisis de sentimientos
Modelado de recompensas para afinamiento de muestras de rechazo