openbmb/Eurus-RM-7b
Eurus-RM-7B se entrena en una mezcla de UltraInteract, UltraFeedback y UltraSafety, con un objetivo de modelado de recompensas específicamente diseñado para el razonamiento para aumentar directamente. EURUS-RM-7B se destaca como el mejor RM de 7B en general y logra un rendimiento similar o mejor que bases mucho más grandes. En particular, supera a GPT-4 en ciertas tareas. Nuestro objetivo de entrenamiento es beneficioso para mejorar el rendimiento de RM en problemas difíciles y razonamiento. ULTRAINTERACT es compatible con otros conjuntos de datos como UltraFeedback y UltraSafety, y mezclar estos conjuntos de datos puede equilibrar diferentes habilidades de RM. EURUS-RM-7B mejora el rendimiento de razonamiento de los LLMs en gran medida a través de la reordenación.
Como usar
from transformers import AutoTokenizer, AutoModel
import torch
def test(model_path):
dataset = [ # casos en webgpt; usamos la misma plantilla que Mistral-Instruct-v0.2
{
"chosen": "[INST] ¿A qué parte del cuerpo se refiere sural? [/INST] La región sural es la hinchazón muscular en la parte posterior de la pierna debajo de la rodilla, formada principalmente por los vientres de los músculos gastrocnemio y sóleo.",
"rejected": "[INST] ¿A qué parte del cuerpo se refiere sural? [/INST] El nervio sural corre por el lado de la pierna cerca de la vena safena menor, luego pasa hacia adelante debajo del maléolo lateral y continúa en el exterior del pie como el nervio cutáneo dorsal lateral.",
}
]
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModel.from_pretrained(model_path, trust_remote_code=True)
with torch.no_grad():
for example in dataset:
inputs = tokenizer(example["chosen"], return_tensors="pt")
chosen_reward = model(**inputs).item()
inputs = tokenizer(example["rejected"], return_tensors="pt")
rejected_reward = model(**inputs).item()
print(chosen_reward - rejected_reward)
test("openbmb/Eurus-RM-7b")
# Salida: 47.4404296875
Funcionalidades
- Clasificación de texto
- Transformers
- Safetensors
- Extracción de características
- Modelo de recompensa
- Generación de texto
- Código personalizado
- Compatibilidad con endpoints de inferencia
Casos de uso
- Mejora el rendimiento de razonamiento de LLMs.
- Superar a modelos más grandes en ciertas tareas.
- Balancear habilidades de RM mediante la combinación de diferentes conjuntos de datos.