letrunglinh/qa_pnc
letrunglinh
Pregunta y respuesta
Modelo de lenguaje: XLM-RoBERTa afinado con MRCQuestionAnswering para tareas de Preguntas y Respuestas. Este modelo está destinado a ser utilizado para QA en el idioma vietnamita, aunque también funciona bien en inglés. El conjunto de datos incluye Squad 2.0, mailong25 y VLSP MRC 2021. Este modelo logró la primera posición en la tabla de clasificación de VLSP MRC 2021.
Como usar
Usar el modelo pre-entrenado
Hugging Face estilo pipeline (NO usando la estrategia de suma de características).
from transformers import pipeline
# model_checkpoint = "nguyenvulebinh/vi-mrc-large"
model_checkpoint = "nguyenvulebinh/vi-mrc-base"
nlp = pipeline('question-answering', model=model_checkpoint,
tokenizer=model_checkpoint)
QA_input = {
'question': "Bình là un experto en qué?",
'context': "Bình Nguyễn es un apasionado del procesamiento del lenguaje natural. Recibió el certificado de Experto en Desarrolladores de Google en 2020"
}
res = nlp(QA_input)
print('pipeline: {}'.format(res))
# {'score': 0.5782045125961304, 'start': 45, 'end': 68, 'answer': 'procesamiento del lenguaje natural'}
Proceso de inferencia más preciso (usando la estrategia de suma de características).
from infer import tokenize_function, data_collator, extract_answer
from model.mrc_model import MRCQuestionAnswering
from transformers import AutoTokenizer
model_checkpoint = "nguyenvulebinh/vi-mrc-large"
#model_checkpoint = "nguyenvulebinh/vi-mrc-base"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
model = MRCQuestionAnswering.from_pretrained(model_checkpoint)
QA_input = {
'question': "¿Con qué título fue reconocido Bình?",
'context': "Bình Nguyễn es un apasionado del procesamiento del lenguaje natural. Recibió el certificado de Experto en Desarrolladores de Google en 2020"
}
inputs = [tokenize_function(*QA_input)]
inputs_ids = data_collator(inputs)
outputs = model(**inputs_ids)
answer = extract_answer(inputs, outputs, tokenizer)
print(answer)
# answer: Experto en Desarrolladores de Google. Puntuación inicio: 0.9926977753639221, Puntuación fin: 0.9909810423851013
Funcionalidades
- Modelo de lenguaje: XLM-RoBERTa
- Tarea a realizar: Preguntas y Respuestas Extractivas
- Conjunto de datos combinando inglés y vietnamita: Squad 2.0, mailong25, VLSP MRC 2021
- Logro: Primera posición en la tabla de clasificación de VLSP MRC 2021
- Procesamiento avanzado de sub-palabras usando la estrategia de suma
Casos de uso
- Responder preguntas en el idioma vietnamita
- Evaluación de preguntas y respuestas en inglés y vietnamita
- Participación en competencias de Preguntas y Respuestas