Mistral-RM-for-RAFT-GSHF-v0
El modelo Mistral-RM-for-RAFT-GSHF-v0 se basa en el modelo Mistral-7B-Instruct-v0.2 de mistralai y está diseñado para la clasificación de textos. Incluye un script de entrenamiento disponible en GitHub y se puede utilizar para tareas iterativas de SFT/DPO. Este modelo utiliza safetensors y es compatible con AutoTrain y Endpoints. Gracias a las contribuciones de la comunidad, especialmente de Wei, este modelo ofrece una alineación efectiva de los modelos generativos fundacionales mediante la técnica RAFT.
Como usar
Para utilizar este modelo, debe cargarse con AutoModelForSequenceClassification:
model = AutoModelForSequenceClassification.from_pretrained(
"hendrydong/Mistral-RM-for-RAFT-GSHF-v0", num_labels=1, torch_dtype=torch.bfloat16
)
Y preparar el dataset así:
SAMPLE = [
{'role': 'user', 'content': '¡Hola!'},
{'role': 'assistant', 'content': '¿Cómo estás?'}
]
La plantilla es la misma que en mistralai/Mistral-7B-Instruct-v0.2. El modelo de recompensa se puede usar para iteraciones de SFT/DPO. Si encuentra útil este modelo de recompensa, cítelo en sus trabajos académicos:
@article{dong2023raft,
title={Raft: Reward ranked finetuning for generative foundation model alignment},
author={Dong, Hanze y Xiong, Wei y Goyal, Deepanshu y Pan, Rui y Diao, Shizhe y Zhang, Jipeng y Shum, Kashun y Zhang, Tong},
journal={arXiv preprint arXiv:2304.06767},
year={2023}
}
@article{xiong2023gibbs,
title={Gibbs sampling from human feedback: A provable kl-constrained framework for rlhf},
author={Xiong, Wei y Dong, Hanze y Ye, Chenlu y Zhong, Han y Jiang, Nan y Zhang, Tong},
journal={arXiv preprint arXiv:2312.11456},
year={2023}
}
Funcionalidades
- Clasificación de textos
- Compatibilidad con transformers
- Utilización de safetensors
- Compatible con AutoTrain
- Compatible con Inference Endpoints
- Entrenamiento iterativo SFT/DPO
- Modelo recompensador basado en feedback humano
Casos de uso
- Clasificación de textos en diversos dominios
- Alineación de modelos generativos basados en IA con feedback humano
- Entrenamiento supervisado con finetuning jerarquizado mediante RAFT