geldarr/saiga-Yarn-Llama-2-7b-64k
geldarr/saiga-Yarn-Llama-2-7b-64k es un modelo avanzando de generación de texto y respuesta a preguntas basado en el modelo base de NousResearch/Yarn-Llama-2-7b-64k. Este modelo se ha entrenado en varios conjuntos de datos en ruso y está optimizado para generar respuestas contextuales y precisas. Utiliza LoRA durante su entrenamiento y es compatible con CUDA > 11.4 para acelerar su rendimiento. Este modelo puede utilizar PyTorch y se integra con la librería Transformers para facilitar su uso.
Como usar
Para usar el modelo, se pueden seguir estos pasos en Python con las librerías Transformes y PyTorch:
!pip install peft
!pip install flash-attn --no-build-isolation
!pip install git+https://github.com/HazyResearch/flash-attention.git#subdirectory=csrc/rotary
from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
model = AutoModelForCausalLM.from_pretrained(
'geldarr/saiga-Yarn-Llama-2-7b-64k',
trust_remote_code=True,
torch_dtype=torch.float16,
device_map={'':0}
)
tokenizer = AutoTokenizer.from_pretrained('geldarr/saiga-Yarn-Llama-2-7b-64k', use_fast=False)
big_prompts = '''system
Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им.
user
Дай ответы на вопрос основываясь только на тексте ниже:
вопрос?
Текст <65536 tokens
bot
'''
gen_config = {
'pad_token_id': 0,
'bos_token_id': 1,
'eos_token_id': 2,
'temperature': 0.4,
'top_p': 0.9,
'top_k': 50,
'do_sample': True,
'max_new_tokens': 15360,
'repetition_penalty': 1.1,
'no_repeat_ngram_size': 15,
}
generation_config = GenerationConfig.from_dict(gen_config)
def generate(model, tokenizer, prompt, generation_config):
data = tokenizer(prompt, return_tensors='pt')
data = {k: v.to(model.device) for k, v in data.items()}
output_ids = model.generate(
**data,
generation_config=generation_config
)[0]
output_ids = output_ids[len(data['input_ids'][0]):]
output = tokenizer.decode(output_ids)
return output.strip()
output = generate(model, tokenizer, big_prompts, generation_config)
print(output)
Este script instala las dependencias necesarias, carga el modelo y el tokenizador, y define una función para generar texto basado en un gran prompt en ruso.
Funcionalidades
- Generación de texto en ruso
- Respuesta a preguntas
- Compatibilidad con CUDA > 11.4
- Integración con Transformers y PyTorch
- Compatibilidad con inferencias de fin de texto
- Código personalizado
- Capacidad de soporte para grandes prompts
Casos de uso
- Generación de respuestas en ruso para asistentes virtuales
- Generación de textos en ruso en procesos automáticos
- Respuesta automatizada a consultas basadas en texto contextual