TinyLlama-1.1B-rag-finetuned-v1.0

muntasir2179

Pregunta y respuesta

Este modelo TinyLlama1.1B está afinado a partir del modelo base. El objetivo es afinar el modelo para que sea adecuado para aplicaciones RAG. Los modelos base a menudo tienen un rendimiento deficiente al generar respuestas fuera de contexto. También existe el problema de las alucinaciones en los LLMs. Se refiere al caso en que los LLMs generan respuestas incorrectas en lugar de omitir la pregunta del usuario con una respuesta adecuada. Para abordar este problema, he afinado el modelo base con un conjunto de datos híbrido que contiene tanto preguntas, contextos y respuestas significativas como preguntas a las que los LLMs alucinan y su respuesta adecuada. Esta forma de afinación puede reducir la tasa de alucinaciones del modelo.

Como usar

Instalar dependencias
pip install -q accelerate==0.21.0 peft==0.4.0 bitsandbytes==0.40.2 transformers==4.31.0 trl==0.4.7

Puedes usar el siguiente código para la inferencia del modelo.
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
import pprint

torch.set_default_device("cuda")

# Crear modelo
model = AutoModelForCausalLM.from_pretrained("MuntasirAhmed/TinyLlama-1.1B-rag-finetuned-v1.0", 
torch_dtype=torch.float16, 
device_map="auto",
trust_remote_code=True)

tokenizer = AutoTokenizer.from_pretrained("MuntasirAhmed/TinyLlama-1.1B-rag-finetuned-v1.0",
trust_remote_code=True)
pipe = pipeline(task="text-generation",
model=model,
tokenizer=tokenizer,
max_length=200)

# Establecer entradas
prompt = "What is a large language model?"
formated_prompt = f'''
You are a friendly chatbot who responses to the user's question by looking into context.

{prompt}
'''

# Generar la respuesta
result = pipe(formated_prompt)
pprint.pp(result[0]['generated_text'])

Funcionalidades

Generación de texto
Compatibilidad con AutoTrain
Afinación para reducir alucinaciones
Compatibilidad con Inference Endpoints
Basado en PyTorch
Utiliza transformers

Casos de uso

Responder preguntas en aplicaciones RAG
Reducir la tasa de alucinaciones en los modelos de lenguaje
Generación de respuestas contextualmente adecuadas