TinyLlama-1.1B-rag-finetuned-v1.0
Este modelo TinyLlama1.1B está afinado a partir del modelo base. El objetivo es afinar el modelo para que sea adecuado para aplicaciones RAG. Los modelos base a menudo tienen un rendimiento deficiente al generar respuestas fuera de contexto. También existe el problema de las alucinaciones en los LLMs. Se refiere al caso en que los LLMs generan respuestas incorrectas en lugar de omitir la pregunta del usuario con una respuesta adecuada. Para abordar este problema, he afinado el modelo base con un conjunto de datos híbrido que contiene tanto preguntas, contextos y respuestas significativas como preguntas a las que los LLMs alucinan y su respuesta adecuada. Esta forma de afinación puede reducir la tasa de alucinaciones del modelo.
Como usar
Instalar dependencias
pip install -q accelerate==0.21.0 peft==0.4.0 bitsandbytes==0.40.2 transformers==4.31.0 trl==0.4.7
Puedes usar el siguiente código para la inferencia del modelo.
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
import pprint
torch.set_default_device("cuda")
# Crear modelo
model = AutoModelForCausalLM.from_pretrained("MuntasirAhmed/TinyLlama-1.1B-rag-finetuned-v1.0",
torch_dtype=torch.float16,
device_map="auto",
trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("MuntasirAhmed/TinyLlama-1.1B-rag-finetuned-v1.0",
trust_remote_code=True)
pipe = pipeline(task="text-generation",
model=model,
tokenizer=tokenizer,
max_length=200)
# Establecer entradas
prompt = "What is a large language model?"
formated_prompt = f'''
You are a friendly chatbot who responses to the user's question by looking into context.
{prompt}
'''
# Generar la respuesta
result = pipe(formated_prompt)
pprint.pp(result[0]['generated_text'])
Funcionalidades
- Generación de texto
- Compatibilidad con AutoTrain
- Afinación para reducir alucinaciones
- Compatibilidad con Inference Endpoints
- Basado en PyTorch
- Utiliza transformers
Casos de uso
- Responder preguntas en aplicaciones RAG
- Reducir la tasa de alucinaciones en los modelos de lenguaje
- Generación de respuestas contextualmente adecuadas