deberta-v3-large-tasksource-rlhf-reward-model

sileod
Clasificación de texto

Modelo de recompensa basado en deberta-v3-large-tasksource-nli afinado con Anthropic/hh-rlhf. Este modelo está afinado durante 1 época con una tasa de aprendizaje de 1e-5. Los datos están descritos en el artículo: Entrenamiento de un asistente útil e inofensivo con aprendizaje por refuerzo a partir de la retroalimentación humana. La precisión de validación es actualmente la mejor reportada públicamente: 75.16% (frente a 69.25% para OpenAssistant/reward-model-deberta-v3-large-v2).

Como usar

Este modelo aún no tiene suficiente actividad para ser desplegado en Inference API (sin servidor). Aumenta su visibilidad social y vuelve a intentarlo más tarde, o despliega en Endpoints de Inferencia (dedicados) en su lugar.

Funcionalidades

Clasificación de texto
Transformers
PyTorch
Afinado con Anthropic/hh-rlhf
Modelo de recompensa
Precisión de validación del 75.16%

Casos de uso

Clasificación de texto
Modelos de recompensa
Entrenamiento de asistentes útiles e inofensivos
Comparación y evaluación de modelos de lenguaje