Nanbeige2-16B-Chat
Nanbeige
Pregunta y respuesta
El Nanbeige2-16B-Chat es el último modelo de 16B desarrollado por el Nanbeige Lab, que utilizó 4.5T tokens de datos de entrenamiento de alta calidad durante la fase de entrenamiento. Durante la fase de alineación, inicialmente entrenamos nuestro modelo utilizando 1 millón de muestras a través del Afinamiento Supervisado (SFT). Luego, realizamos aprendizaje curricular con 400,000 muestras de alta calidad que presentaban un mayor nivel de dificultad. Posteriormente, incorporamos retroalimentación humana a través de la Optimización de Preferencias Directas (DPO), culminando en el desarrollo del Nanbeige2-16B-Chat. El Nanbeige2-16B-Chat ha logrado un rendimiento superior en varios conjuntos de datos de referencia autorizados.
Como usar
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(
'Nanbeige/Nanbeige2-16B-Chat',
use_fast=False,
trust_remote_code=True
)
model = AutoModelForCausalLM.from_pretrained(
'Nanbeige/Nanbeige2-16B-Chat',
torch_dtype='auto',
device_map='auto',
trust_remote_code=True
)
messages = [
{'role': 'user', 'content': 'Hello'}
]
prompt = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=False
)
input_ids = tokenizer(prompt, add_special_tokens=False, return_tensors='pt').input_ids
output_ids = model.generate(input_ids.to('cuda'))
resp = tokenizer.decode(output_ids[0][len(input_ids[0]):], skip_special_tokens=True)
print(resp)
Funcionalidades
- Capacidades de respuesta a preguntas en inglés y chino de una sola vuelta y de varias vueltas
- Entrenamiento con 4.5T tokens de datos de alta calidad
- Afinamiento supervisado con 1 millón de muestras
- Aprendizaje curricular con 400,000 muestras de alta calidad
- Optimización de Preferencias Directas (DPO) con retroalimentación humana
- Rendimiento superior en varios conjuntos de datos de referencia autorizados
Casos de uso
- Respuestas a preguntas generales en inglés y chino
- Respuestas a preguntas de una sola vuelta y de varias vueltas
- Generación de texto