openbmb/Eurus-RM-7b

openbmb

Clasificación de texto

Eurus-RM-7B se entrena en una mezcla de UltraInteract, UltraFeedback y UltraSafety, con un objetivo de modelado de recompensas específicamente diseñado para el razonamiento para aumentar directamente. EURUS-RM-7B se destaca como el mejor RM de 7B en general y logra un rendimiento similar o mejor que bases mucho más grandes. En particular, supera a GPT-4 en ciertas tareas. Nuestro objetivo de entrenamiento es beneficioso para mejorar el rendimiento de RM en problemas difíciles y razonamiento. ULTRAINTERACT es compatible con otros conjuntos de datos como UltraFeedback y UltraSafety, y mezclar estos conjuntos de datos puede equilibrar diferentes habilidades de RM. EURUS-RM-7B mejora el rendimiento de razonamiento de los LLMs en gran medida a través de la reordenación.

Como usar

from transformers import AutoTokenizer, AutoModel
import torch

def test(model_path):
    dataset = [ # casos en webgpt; usamos la misma plantilla que Mistral-Instruct-v0.2
    {
    "chosen": "[INST] ¿A qué parte del cuerpo se refiere sural? [/INST] La región sural es la hinchazón muscular en la parte posterior de la pierna debajo de la rodilla, formada principalmente por los vientres de los músculos gastrocnemio y sóleo.",
    "rejected": "[INST] ¿A qué parte del cuerpo se refiere sural? [/INST] El nervio sural corre por el lado de la pierna cerca de la vena safena menor, luego pasa hacia adelante debajo del maléolo lateral y continúa en el exterior del pie como el nervio cutáneo dorsal lateral.",
    }
    ]

    tokenizer = AutoTokenizer.from_pretrained(model_path)
    model = AutoModel.from_pretrained(model_path, trust_remote_code=True)

    with torch.no_grad():
        for example in dataset:
            inputs = tokenizer(example["chosen"], return_tensors="pt")
            chosen_reward = model(**inputs).item()
            inputs = tokenizer(example["rejected"], return_tensors="pt")
            rejected_reward = model(**inputs).item()
            print(chosen_reward - rejected_reward)


    test("openbmb/Eurus-RM-7b")
    # Salida: 47.4404296875

Funcionalidades

Clasificación de texto
Transformers
Safetensors
Extracción de características
Modelo de recompensa
Generación de texto
Código personalizado
Compatibilidad con endpoints de inferencia

Casos de uso

Mejora el rendimiento de razonamiento de LLMs.
Superar a modelos más grandes en ciertas tareas.
Balancear habilidades de RM mediante la combinación de diferentes conjuntos de datos.