Mistral-RM-for-RAFT-GSHF-v0

hendrydong

Clasificación de texto

El modelo Mistral-RM-for-RAFT-GSHF-v0 se basa en el modelo Mistral-7B-Instruct-v0.2 de mistralai y está diseñado para la clasificación de textos. Incluye un script de entrenamiento disponible en GitHub y se puede utilizar para tareas iterativas de SFT/DPO. Este modelo utiliza safetensors y es compatible con AutoTrain y Endpoints. Gracias a las contribuciones de la comunidad, especialmente de Wei, este modelo ofrece una alineación efectiva de los modelos generativos fundacionales mediante la técnica RAFT.

Como usar

Para utilizar este modelo, debe cargarse con AutoModelForSequenceClassification:
model = AutoModelForSequenceClassification.from_pretrained(
    "hendrydong/Mistral-RM-for-RAFT-GSHF-v0", num_labels=1, torch_dtype=torch.bfloat16
)

Y preparar el dataset así:
SAMPLE = [
    {'role': 'user', 'content': '¡Hola!'},
    {'role': 'assistant', 'content': '¿Cómo estás?'}
]

La plantilla es la misma que en mistralai/Mistral-7B-Instruct-v0.2. El modelo de recompensa se puede usar para iteraciones de SFT/DPO. Si encuentra útil este modelo de recompensa, cítelo en sus trabajos académicos:
@article{dong2023raft,
title={Raft: Reward ranked finetuning for generative foundation model alignment},
author={Dong, Hanze y Xiong, Wei y Goyal, Deepanshu y Pan, Rui y Diao, Shizhe y Zhang, Jipeng y Shum, Kashun y Zhang, Tong},
journal={arXiv preprint arXiv:2304.06767},
year={2023}
}

@article{xiong2023gibbs,
title={Gibbs sampling from human feedback: A provable kl-constrained framework for rlhf},
author={Xiong, Wei y Dong, Hanze y Ye, Chenlu y Zhong, Han y Jiang, Nan y Zhang, Tong},
journal={arXiv preprint arXiv:2312.11456},
year={2023}
}

Funcionalidades

Clasificación de textos
Compatibilidad con transformers
Utilización de safetensors
Compatible con AutoTrain
Compatible con Inference Endpoints
Entrenamiento iterativo SFT/DPO
Modelo recompensador basado en feedback humano

Casos de uso

Clasificación de textos en diversos dominios
Alineación de modelos generativos basados en IA con feedback humano
Entrenamiento supervisado con finetuning jerarquizado mediante RAFT