deberta-v3-large-tasksource-rlhf-reward-model
sileod
Clasificación de texto
Modelo de recompensa basado en deberta-v3-large-tasksource-nli afinado con Anthropic/hh-rlhf. Este modelo está afinado durante 1 época con una tasa de aprendizaje de 1e-5. Los datos están descritos en el artículo: Entrenamiento de un asistente útil e inofensivo con aprendizaje por refuerzo a partir de la retroalimentación humana. La precisión de validación es actualmente la mejor reportada públicamente: 75.16% (frente a 69.25% para OpenAssistant/reward-model-deberta-v3-large-v2).
Como usar
Este modelo aún no tiene suficiente actividad para ser desplegado en Inference API (sin servidor). Aumenta su visibilidad social y vuelve a intentarlo más tarde, o despliega en Endpoints de Inferencia (dedicados) en su lugar.
Funcionalidades
- Clasificación de texto
- Transformers
- PyTorch
- Afinado con Anthropic/hh-rlhf
- Modelo de recompensa
- Precisión de validación del 75.16%
Casos de uso
- Clasificación de texto
- Modelos de recompensa
- Entrenamiento de asistentes útiles e inofensivos
- Comparación y evaluación de modelos de lenguaje