innocent-charles/Swahili-question-answer-latest-cased

innocent-charles
Pregunta y respuesta

Este es el modelo bert-base-multilingual-cased, ajustado utilizando el conjunto de datos KenyaCorpus. Ha sido entrenado en pares de preguntas y respuestas, incluyendo preguntas sin respuesta, para la tarea de Respuesta a Preguntas en idioma Kiswahili. La respuesta a preguntas (QA) es una disciplina de la informática dentro de los campos de recuperación de información y procesamiento de lenguaje natural que ayuda en el desarrollo de sistemas de tal manera que, dada una pregunta en lenguaje natural, pueda extraer información relevante de los datos proporcionados y presentarla en forma de respuestas en lenguaje natural.

Como usar

En Haystack

Haystack es un marco de procesamiento de lenguaje natural (NLP) de deepset. Puedes usar este modelo en una pipeline de Haystack para hacer respuesta a preguntas a gran escala (sobre muchos documentos). Para cargar el modelo en Haystack:

reader = FARMReader(model_name_or_path="innocent-charles/Swahili-question-answer-latest-cased")
# o
reader = TransformersReader(model_name_or_path="innocent-charles/Swahili-question-answer-latest-cased",tokenizer="innocent-charles/Swahili-question-answer-latest-cased")

Para un ejemplo completo de Swahili-question-answer-latest-cased utilizado para Respuestas a Preguntas en Kiswahili, consulta los Tutoriales en la Documentación de Haystack.

En Transformers

from transformers import AutoModelForQuestionAnswering, AutoTokenizer, pipeline

model_name = "innocent-charles/Swahili-question-answer-latest-cased"

# a) Obtener predicciones
nlp = pipeline('question-answering', model=model_name, tokenizer=model_name)
QA_input = {
  'question': 'Asubuhi ilitupata pambajioi pa hospitali gani?',
  'context': 'Asubuhi hiyo ilitupata pambajioni pa hospitali ya Uguzwa.'
}
res = nlp(QA_input)

# b) Cargar modelo y tokenizador
model = AutoModelForQuestionAnswering.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

Funcionalidades

Modelo de lenguaje utilizado: bert-base-multilingual-cased
Idioma: Kiswahili
Tarea downstream: QA extrativo en Kiswahili
Datos de entrenamiento: KenyaCorpus
Datos de evaluación: KenyaCorpus
Código: Ver un ejemplo de pipeline QA en Haystack
Infraestructura: GPU AWS NVIDIA A100 Tensor Core

Casos de uso

Responder preguntas en Kiswahili extrayendo información relevante de los datos proporcionados
Desarrollar sistemas de recuperación de información en el idioma Kiswahili