Jacaranda/AfroLlama_V1

Jacaranda
Pregunta y respuesta

AfroLlama3 es un modelo de lenguaje con 8 mil millones de parámetros que se basa en el modelo meta-llama/Meta-Llama-3-8B. Ha sido específicamente mejorado para sobresalir en el procesamiento y generación de texto en Swahili, Xhosa, Zulú, Yoruba, Hausa e Inglés. Este modelo tiene como objetivo mejorar las capacidades de comprensión y generación del lenguaje natural para los usuarios e investigadores que hablan Swahili, Xhosa, Zulú, Yoruba, Hausa e Inglés.

Como usar

El proceso de entrenamiento del AfroLlama involucró tres fases principales:

  1. Pre-entrenamiento Continuo Basado en LoRA para Idiomas Individuales: Realizamos un pre-entrenamiento continuo utilizando corpus públicos disponibles en cada idioma individual, enfocándonos principalmente en el modelado del lenguaje causal, entrenando específicamente al modelo para predecir los siguientes tokens basándose en los tokens precedentes para cada idioma objetivo. Nuestro pre-entrenamiento continuo involucró la implementación de la técnica LoRA, donde congelamos los parámetros del modelo base del modelo Meta/Llama3 y agregamos componentes adicionales ligeros (adaptadores).

  2. Combinación: Los puntos de control preentrenados específicos del idioma se combinaron para crear un modelo autónomo utilizando una receta de combinación basada en Ties (Trim, Elect and Sign). Los tres pasos de Ties son: i) Reinicio de parámetros que cambiaron insignificativamente durante el ajuste fino (Trim): implica identificar parámetros que no cambiaron mucho durante el proceso de pre-entrenamiento continuo y reiniciarlos a sus valores originales. ii) Resolución de conflictos de signos (interferencia): abordar situaciones en las que diferentes ejemplos de entrenamiento u objetivos causan actualizaciones conflictivas a los signos de los parámetros, lo que podría llevar a una interferencia o a una reducción en el rendimiento del modelo. iii) Combinación solo de los parámetros que están alineados con la dirección final acordada por consenso (Signo de la Mayoría), lo que potencialmente ayuda a reducir el ruido y mejorar la coherencia general del modelo.

  3. Ajuste Basado en Instrucciones con LoRA:

El modelo combinado se afinó en un conjunto de datos curado de instrucciones y respuestas en Swahili, Xhosa, Zulú, Yoruba, Hausa e Inglés, incluyendo datos específicos de tareas para mejorar el rendimiento en tareas comunes del lenguaje. Enfatizamos en mantener la coherencia y la comprensión contextual en Swahili, Xhosa, Zulú, Yoruba, Hausa e Inglés. Incorporamos conjuntos de datos de seguridad para mejorar la capacidad del modelo de generar respuestas seguras y éticas. Incluimos ejemplos de contenido dañino y alternativas no dañinas apropiadas. Nos enfocamos en reducir sesgos y mejorar la comprensión del modelo sobre sensibilidades culturales en el contexto de Swahili, Xhosa, Zulú, Yoruba, Hausa e Inglés.

Tamaños aproximados de los conjuntos de datos: Ajuste de instrucciones: [331,400 pares de instrucción-respuesta]

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "Jacaranda/AfroLlama_V1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

text = "Andika hadithi ya bwana sungura"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Funcionalidades

Mejor rendimiento en tareas de lenguaje en Swahili, Xhosa, Zulú, Yoruba, Hausa e Inglés
Mantiene las capacidades generales del lenguaje del modelo original Llama 3
Optimizado tanto para la comprensión como para la generación de texto en Swahili, Xhosa, Zulú, Yoruba, Hausa e Inglés

Casos de uso

Responder preguntas dentro de dominios específicos.
Capacidades de chat asistido: atención médica, agricultura, legal, educación, turismo y hospitalidad, servicios públicos, sectores financieros, comunicación, asistencia al cliente, comercio, etc.
Optimización para tareas que requieren conjuntos de datos de instrucción en Swahili, Xhosa, Zulú, Yoruba, Hausa e Inglés.