llama-3-tulu-2-8b-uf-mean-rm
Tulu es una serie de modelos de lenguaje entrenados para actuar como asistentes útiles. Este es un modelo de recompensa de 8B utilizado para el entrenamiento PPO entrenado en el conjunto de datos UltraFeedback. Para más detalles, lea el artículo: Desembalando DPO y PPO: Desentrañando las mejores prácticas para aprender de la retroalimentación de preferencias. ¡Construido con Meta Llama 3! Tenga en cuenta que Llama 3 se lanza bajo la licencia comunitaria de Meta Llama 3, incluida aquí debajo de llama_3_license.txt.
Como usar
El modelo está entrenado para usar el siguiente formato (tenga en cuenta los saltos de línea):
¡Su mensaje aquí!
Para obtener los mejores resultados, formatee todas las entradas de esta manera. Asegúrese de incluir un salto de línea después; esto puede afectar bastante la calidad de la generación.
Hemos incluido una plantilla de chat en el tokenizador que implementa esta plantilla.
Los siguientes hiperparámetros se utilizaron durante el entrenamiento de PPO:
learning_rate: 1e-06
total_train_batch_size: 512
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear cooldown to 1e-05.
lr_scheduler_warmup_ratio: 0.03
num_epochs: 1.0
Funcionalidades
- Modelo de recompensa de 8B
- Entrenado en UltraFeedback
- Utilizado para el entrenamiento de PPO
- Compatible con licencias Apache 2.0
Casos de uso
- Investigación en aprendizaje por refuerzo
- Asistencia en generación de texto
- Entrenamiento con retroalimentación de preferencias
- Desarrollar aplicaciones de IA para tareas de clasificación de texto