tulu-v2.5-7b-uf-rm

hamishivi
Clasificación de texto

Tulu es una serie de modelos de lenguaje entrenados para actuar como asistentes útiles. Tulu V2.5 es una serie de modelos entrenados usando DPO y PPO a partir del conjunto Tulu 2. Este es un modelo de recompensa utilizado para el entrenamiento de PPO entrenado en el conjunto de datos UltraFeedback. Para obtener más detalles, lea el documento: Desentramando DPO y PPO: Desentrañando las Mejores Prácticas para Aprender de la Retroalimentación de Preferencias.

Como usar

El modelo está entrenado para utilizar el siguiente formato (nótese los saltos de línea):

¡Tu mensaje aquí!

Para obtener los mejores resultados, formatee todas las entradas de esta manera. Asegúrese de incluir un salto de línea después, esto puede afectar bastante la calidad de la generación. Hemos incluido una plantilla de chat en el tokenizador que implementa esta plantilla.

Los siguientes hiperparámetros se utilizaron durante el entrenamiento de PPO:

learning_rate: 1e-06
total_train_batch_size: 512
optimizer: Adam con betas=(0.9,0.999) y epsilon=1e-08
lr_scheduler_type: disminución lineal a 1e-05
lr_scheduler_warmup_ratio: 0.03
num_epochs: 1.0

Funcionalidades

Clasificación de texto
Compatibilidad con AutoTrain
Inferencia de generación de texto
Endpoints de inferencia
Aptitud para conjuntos de datos públicos, sintéticos y creados por humanos

Casos de uso

Como artefacto de investigación
Entrenamiento de modelos de lenguaje con preferencia humana
Generación de diálogos sintéticos
Clasificación de textos en base a instrucciones dadas por humanos