innocent-charles/Swahili-question-answer-latest-cased
Este es el modelo bert-base-multilingual-cased, ajustado utilizando el conjunto de datos KenyaCorpus. Ha sido entrenado en pares de preguntas y respuestas, incluyendo preguntas sin respuesta, para la tarea de Respuesta a Preguntas en idioma Kiswahili. La respuesta a preguntas (QA) es una disciplina de la informática dentro de los campos de recuperación de información y procesamiento de lenguaje natural que ayuda en el desarrollo de sistemas de tal manera que, dada una pregunta en lenguaje natural, pueda extraer información relevante de los datos proporcionados y presentarla en forma de respuestas en lenguaje natural.
Como usar
En Haystack
Haystack es un marco de procesamiento de lenguaje natural (NLP) de deepset. Puedes usar este modelo en una pipeline de Haystack para hacer respuesta a preguntas a gran escala (sobre muchos documentos). Para cargar el modelo en Haystack:
reader = FARMReader(model_name_or_path="innocent-charles/Swahili-question-answer-latest-cased")
# o
reader = TransformersReader(model_name_or_path="innocent-charles/Swahili-question-answer-latest-cased",tokenizer="innocent-charles/Swahili-question-answer-latest-cased")
Para un ejemplo completo de Swahili-question-answer-latest-cased utilizado para Respuestas a Preguntas en Kiswahili, consulta los Tutoriales en la Documentación de Haystack.
En Transformers
from transformers import AutoModelForQuestionAnswering, AutoTokenizer, pipeline
model_name = "innocent-charles/Swahili-question-answer-latest-cased"
# a) Obtener predicciones
nlp = pipeline('question-answering', model=model_name, tokenizer=model_name)
QA_input = {
'question': 'Asubuhi ilitupata pambajioi pa hospitali gani?',
'context': 'Asubuhi hiyo ilitupata pambajioni pa hospitali ya Uguzwa.'
}
res = nlp(QA_input)
# b) Cargar modelo y tokenizador
model = AutoModelForQuestionAnswering.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
Funcionalidades
- Modelo de lenguaje utilizado: bert-base-multilingual-cased
- Idioma: Kiswahili
- Tarea downstream: QA extrativo en Kiswahili
- Datos de entrenamiento: KenyaCorpus
- Datos de evaluación: KenyaCorpus
- Código: Ver un ejemplo de pipeline QA en Haystack
- Infraestructura: GPU AWS NVIDIA A100 Tensor Core
Casos de uso
- Responder preguntas en Kiswahili extrayendo información relevante de los datos proporcionados
- Desarrollar sistemas de recuperación de información en el idioma Kiswahili