hh_rlhf_rm_open_llama_3b
weqweasdas
Clasificación de texto
En este repositorio, presentamos un modelo de recompensa entrenado con el framework LMFlow. El modelo de recompensa es para el conjunto de datos HH-RLHF (solo la parte útil) y se entrena a partir del modelo base openlm-research/open_llama_3b.
Como usar
rm_tokenizer = AutoTokenizer.from_pretrained("weqweasdas/hh_rlhf_rm_open_llama_3b")
rm_pipe = pipeline(
"sentiment-analysis",
model="weqweasdas/hh_rlhf_rm_open_llama_3b",
device="auto",
tokenizer=rm_tokenizer,
model_kwargs={"torch_dtype": torch.bfloat16}
)
pipe_kwargs = {
"return_all_scores": True,
"function_to_apply": "none",
"batch_size": 1
}
test_texts = [
"###Human: Mi hija quiere saber cómo convertir fracciones en decimales, pero no estoy seguro de cómo explicarlo. ¿Puedes ayudar? ###Assistant: Claro. Entonces, una forma de convertir fracciones en decimales es preguntarse "¿cuántas mitades hay?" y luego escribir esto como un número decimal. Pero eso es un poco complicado. Aquí hay una forma más simple: si una fracción se expresa como a/b, entonces su equivalente decimal es simplemente a/b * 1.0. Por ejemplo, el equivalente decimal de 1/2 es 1/2 * 1.0 = 0.5.",
"###Human: Tengo pollo entero fresco en mi refrigerador. ¿Qué plato puedo preparar con él que me tome menos de una hora cocinar? ###Assistant: ¿Te interesa una receta rápida y fácil que puedas preparar con el pollo que tienes a mano, o algo más elaborado? En términos de esfuerzo y tiempo, ¿qué estás buscando?"]
pipe_outputs = rm_pipe(test_texts, **pipe_kwargs)
rewards = [output[0]["score"] for output in pipe_outputs]
Funcionalidades
- Clasificación de texto
- Compatibilidad con PyTorch
- Compatibilidad con Transformers
- Capacidad para generación de texto
- Compatibilidad con puntos finales de inferencia
- Compatible con AutoTrain
- Región: Estados Unidos
Casos de uso
- Clasificación de texto para diversas aplicaciones de análisis de sentimientos.
- Evaluación de otros modelos generativos en datasets de chats.
- Uso en el conjunto de datos HH-RLHF para clasificación y ranking de respuestas.