hh_rlhf_rm_open_llama_3b

weqweasdas
Clasificación de texto

En este repositorio, presentamos un modelo de recompensa entrenado con el framework LMFlow. El modelo de recompensa es para el conjunto de datos HH-RLHF (solo la parte útil) y se entrena a partir del modelo base openlm-research/open_llama_3b.

Como usar

rm_tokenizer = AutoTokenizer.from_pretrained("weqweasdas/hh_rlhf_rm_open_llama_3b")

rm_pipe = pipeline(
"sentiment-analysis",
model="weqweasdas/hh_rlhf_rm_open_llama_3b",
device="auto",
tokenizer=rm_tokenizer,
model_kwargs={"torch_dtype": torch.bfloat16}
)

pipe_kwargs = {
"return_all_scores": True,
"function_to_apply": "none",
"batch_size": 1
}

test_texts = [
"###Human: Mi hija quiere saber cómo convertir fracciones en decimales, pero no estoy seguro de cómo explicarlo. ¿Puedes ayudar? ###Assistant: Claro. Entonces, una forma de convertir fracciones en decimales es preguntarse "¿cuántas mitades hay?" y luego escribir esto como un número decimal. Pero eso es un poco complicado. Aquí hay una forma más simple: si una fracción se expresa como a/b, entonces su equivalente decimal es simplemente a/b * 1.0. Por ejemplo, el equivalente decimal de 1/2 es 1/2 * 1.0 = 0.5.",
"###Human: Tengo pollo entero fresco en mi refrigerador. ¿Qué plato puedo preparar con él que me tome menos de una hora cocinar? ###Assistant: ¿Te interesa una receta rápida y fácil que puedas preparar con el pollo que tienes a mano, o algo más elaborado? En términos de esfuerzo y tiempo, ¿qué estás buscando?"]

pipe_outputs = rm_pipe(test_texts, **pipe_kwargs)
rewards = [output[0]["score"] for output in pipe_outputs]

Funcionalidades

Clasificación de texto
Compatibilidad con PyTorch
Compatibilidad con Transformers
Capacidad para generación de texto
Compatibilidad con puntos finales de inferencia
Compatible con AutoTrain
Región: Estados Unidos

Casos de uso

Clasificación de texto para diversas aplicaciones de análisis de sentimientos.
Evaluación de otros modelos generativos en datasets de chats.
Uso en el conjunto de datos HH-RLHF para clasificación y ranking de respuestas.