geldarr/saiga-Yarn-Llama-2-7b-64k

geldarr
Pregunta y respuesta

geldarr/saiga-Yarn-Llama-2-7b-64k es un modelo avanzando de generación de texto y respuesta a preguntas basado en el modelo base de NousResearch/Yarn-Llama-2-7b-64k. Este modelo se ha entrenado en varios conjuntos de datos en ruso y está optimizado para generar respuestas contextuales y precisas. Utiliza LoRA durante su entrenamiento y es compatible con CUDA > 11.4 para acelerar su rendimiento. Este modelo puede utilizar PyTorch y se integra con la librería Transformers para facilitar su uso.

Como usar

Para usar el modelo, se pueden seguir estos pasos en Python con las librerías Transformes y PyTorch:

!pip install peft
!pip install flash-attn --no-build-isolation
!pip install git+https://github.com/HazyResearch/flash-attention.git#subdirectory=csrc/rotary

from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig

model = AutoModelForCausalLM.from_pretrained(
    'geldarr/saiga-Yarn-Llama-2-7b-64k',
    trust_remote_code=True,
    torch_dtype=torch.float16,
    device_map={'':0}
)
tokenizer = AutoTokenizer.from_pretrained('geldarr/saiga-Yarn-Llama-2-7b-64k', use_fast=False)

big_prompts = '''system
Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им.

user
Дай ответы на вопрос основываясь только на тексте ниже:

вопрос?

Текст <65536 tokens

bot
'''

gen_config = {
    'pad_token_id': 0,
    'bos_token_id': 1,
    'eos_token_id': 2,
    'temperature': 0.4,
    'top_p': 0.9,
    'top_k': 50,
    'do_sample': True,
    'max_new_tokens': 15360,
    'repetition_penalty': 1.1,
    'no_repeat_ngram_size': 15,
}
generation_config = GenerationConfig.from_dict(gen_config)

def generate(model, tokenizer, prompt, generation_config):
    data = tokenizer(prompt, return_tensors='pt')
    data = {k: v.to(model.device) for k, v in data.items()}
    output_ids = model.generate(
        **data,
        generation_config=generation_config
    )[0]
    output_ids = output_ids[len(data['input_ids'][0]):]
    output = tokenizer.decode(output_ids)
    return output.strip()

output = generate(model, tokenizer, big_prompts, generation_config)

print(output)

Este script instala las dependencias necesarias, carga el modelo y el tokenizador, y define una función para generar texto basado en un gran prompt en ruso.

Funcionalidades

Generación de texto en ruso
Respuesta a preguntas
Compatibilidad con CUDA > 11.4
Integración con Transformers y PyTorch
Compatibilidad con inferencias de fin de texto
Código personalizado
Capacidad de soporte para grandes prompts

Casos de uso

Generación de respuestas en ruso para asistentes virtuales
Generación de textos en ruso en procesos automáticos
Respuesta automatizada a consultas basadas en texto contextual