Nanbeige2-16B-Chat

Nanbeige
Pregunta y respuesta

El Nanbeige2-16B-Chat es el último modelo de 16B desarrollado por el Nanbeige Lab, que utilizó 4.5T tokens de datos de entrenamiento de alta calidad durante la fase de entrenamiento. Durante la fase de alineación, inicialmente entrenamos nuestro modelo utilizando 1 millón de muestras a través del Afinamiento Supervisado (SFT). Luego, realizamos aprendizaje curricular con 400,000 muestras de alta calidad que presentaban un mayor nivel de dificultad. Posteriormente, incorporamos retroalimentación humana a través de la Optimización de Preferencias Directas (DPO), culminando en el desarrollo del Nanbeige2-16B-Chat. El Nanbeige2-16B-Chat ha logrado un rendimiento superior en varios conjuntos de datos de referencia autorizados.

Como usar

from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(
'Nanbeige/Nanbeige2-16B-Chat',
use_fast=False,
trust_remote_code=True
)
model = AutoModelForCausalLM.from_pretrained(
'Nanbeige/Nanbeige2-16B-Chat',
torch_dtype='auto',
device_map='auto',
trust_remote_code=True
)
messages = [
{'role': 'user', 'content': 'Hello'}
]
prompt = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=False
)
input_ids = tokenizer(prompt, add_special_tokens=False, return_tensors='pt').input_ids
output_ids = model.generate(input_ids.to('cuda'))
resp = tokenizer.decode(output_ids[0][len(input_ids[0]):], skip_special_tokens=True)
print(resp)

Funcionalidades

Capacidades de respuesta a preguntas en inglés y chino de una sola vuelta y de varias vueltas
Entrenamiento con 4.5T tokens de datos de alta calidad
Afinamiento supervisado con 1 millón de muestras
Aprendizaje curricular con 400,000 muestras de alta calidad
Optimización de Preferencias Directas (DPO) con retroalimentación humana
Rendimiento superior en varios conjuntos de datos de referencia autorizados

Casos de uso

Respuestas a preguntas generales en inglés y chino
Respuestas a preguntas de una sola vuelta y de varias vueltas
Generación de texto