tulu-v2.5-7b-uf-rm
Tulu es una serie de modelos de lenguaje entrenados para actuar como asistentes útiles. Tulu V2.5 es una serie de modelos entrenados usando DPO y PPO a partir del conjunto Tulu 2. Este es un modelo de recompensa utilizado para el entrenamiento de PPO entrenado en el conjunto de datos UltraFeedback. Para obtener más detalles, lea el documento: Desentramando DPO y PPO: Desentrañando las Mejores Prácticas para Aprender de la Retroalimentación de Preferencias.
Como usar
El modelo está entrenado para utilizar el siguiente formato (nótese los saltos de línea):
¡Tu mensaje aquí!
Para obtener los mejores resultados, formatee todas las entradas de esta manera. Asegúrese de incluir un salto de línea después, esto puede afectar bastante la calidad de la generación. Hemos incluido una plantilla de chat en el tokenizador que implementa esta plantilla.
Los siguientes hiperparámetros se utilizaron durante el entrenamiento de PPO:
learning_rate: 1e-06
total_train_batch_size: 512
optimizer: Adam con betas=(0.9,0.999) y epsilon=1e-08
lr_scheduler_type: disminución lineal a 1e-05
lr_scheduler_warmup_ratio: 0.03
num_epochs: 1.0
Funcionalidades
- Clasificación de texto
- Compatibilidad con AutoTrain
- Inferencia de generación de texto
- Endpoints de inferencia
- Aptitud para conjuntos de datos públicos, sintéticos y creados por humanos
Casos de uso
- Como artefacto de investigación
- Entrenamiento de modelos de lenguaje con preferencia humana
- Generación de diálogos sintéticos
- Clasificación de textos en base a instrucciones dadas por humanos