llama-3-tulu-2-8b-uf-mean-rm

allenai

Clasificación de texto

Tulu es una serie de modelos de lenguaje entrenados para actuar como asistentes útiles. Este es un modelo de recompensa de 8B utilizado para el entrenamiento PPO entrenado en el conjunto de datos UltraFeedback. Para más detalles, lea el artículo: Desembalando DPO y PPO: Desentrañando las mejores prácticas para aprender de la retroalimentación de preferencias. ¡Construido con Meta Llama 3! Tenga en cuenta que Llama 3 se lanza bajo la licencia comunitaria de Meta Llama 3, incluida aquí debajo de llama_3_license.txt.

Como usar

El modelo está entrenado para usar el siguiente formato (tenga en cuenta los saltos de línea):
¡Su mensaje aquí!

Para obtener los mejores resultados, formatee todas las entradas de esta manera. Asegúrese de incluir un salto de línea después; esto puede afectar bastante la calidad de la generación.
Hemos incluido una plantilla de chat en el tokenizador que implementa esta plantilla.
Los siguientes hiperparámetros se utilizaron durante el entrenamiento de PPO:
learning_rate: 1e-06
total_train_batch_size: 512
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear cooldown to 1e-05.
lr_scheduler_warmup_ratio: 0.03
num_epochs: 1.0

Funcionalidades

Modelo de recompensa de 8B
Entrenado en UltraFeedback
Utilizado para el entrenamiento de PPO
Compatible con licencias Apache 2.0

Casos de uso

Investigación en aprendizaje por refuerzo
Asistencia en generación de texto
Entrenamiento con retroalimentación de preferencias
Desarrollar aplicaciones de IA para tareas de clasificación de texto