HausaLlama

Jacaranda
Pregunta y respuesta

HausaLlama3 es un modelo de lenguaje con 8 mil millones de parámetros que se basa en el modelo meta-llama/Meta-Llama-3-8B. Ha sido específicamente mejorado para sobresalir en el procesamiento y generación de texto en el idioma hausa. Este modelo tiene como objetivo mejorar las capacidades de comprensión y generación de lenguaje natural para los usuarios e investigadores de habla hausa.

Como usar

La formación del HausaLlama involucró dos etapas principales:

  1. Pre-entrenamiento continuo basado en LoRA:

Llevamos a cabo un pre-entrenamiento continuo utilizando corpus de hausa de acceso público, los cuales preprocesamos usando el tokenizador Meta/Llama3. El enfoque principal fue en el modelado de lenguaje causal, específicamente entrenando el modelo para predecir los siguientes tokens de hausa basados en los tokens de hausa precedentes. Nuestro pre-entrenamiento continuo implicó la implementación de la técnica LoRA, donde congelamos los parámetros del modelo base de la fundación Meta/Llama3 e introducimos componentes adicionales livianos (adaptadores). Estos adaptadores fueron entrenados específicamente para capturar las complejidades, terminologías y matices del idioma hausa.

# Ejemplo de uso
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained('Jacaranda/HausaLlama')
tokenizer = AutoTokenizer.from_pretrained('Jacaranda/HausaLlama')

inputs = tokenizer('¿Dónde vivo?', return_tensors='pt')
outputs = model.generate(inputs['input_ids'])
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
  1. Ajuste de instrucciones basado en LoRA:
  • Ajuste fino en un conjunto de datos curado de instrucciones y respuestas en hausa
  • Incluye datos específicos de tareas para mejorar el rendimiento en tareas comunes de lenguaje
  • Énfasis en mantener la coherencia y comprensión contextual en hausa
  • Incorpora conjuntos de datos de seguridad para mejorar la capacidad del modelo de generar respuestas seguras y éticas
  • Incluye ejemplos de contenido dañino y alternativas no dañinas adecuadas
  • Enfoque en reducir los sesgos y mejorar la comprensión del modelo sobre las sensibilidades culturales en el contexto hausa

Tamaño aproximado del conjunto de datos:

  • Pre-entrenamiento continuo: [8.4 GB de texto]
  • Ajuste de instrucciones: [66,280 pares de instrucciones y respuestas]

Funcionalidades

Mejor rendimiento en tareas del idioma hausa
Mantiene las capacidades de lenguaje general del modelo original Llama 3
Optimizado tanto para la comprensión como para la generación de texto en hausa

Casos de uso

Responder preguntas dentro de dominios específicos
Capacidades de chat impulsadas por asistentes: atención médica, agricultura, legal, educación, turismo y hospitalidad, servicios públicos, sectores financieros, comunicación, asistencia al cliente, comercio