nguyenvulebinh/vi-mrc-large
nguyenvulebinh
Pregunta y respuesta
Un modelo de lenguaje basado en XLM-RoBERTa afinado para responder preguntas (MRCQuestionAnswering). Está diseñado principalmente para el idioma vietnamita, pero también funciona bien con inglés. Este modelo se entrenó utilizando un conjunto combinado de datos en inglés y vietnamita (Squad 2.0, mailong25, VLSP MRC 2021 y MultiLingual Question Answering). Este modelo logró el primer lugar en la clasificación de VLSP MRC 2021.
Como usar
Uso del modelo pre-entrenado
from transformers import pipeline
# model_checkpoint = "nguyenvulebinh/vi-mrc-large"
model_checkpoint = "nguyenvulebinh/vi-mrc-base"
nlp = pipeline('question-answering', model=model_checkpoint,
tokenizer=model_checkpoint)
QA_input = {
'question': 'Bình là chuyên gia về gì ?',
'context': 'Bình Nguyễn là một người đam mê với lĩnh vực xử lý ngôn ngữ tự nhiên . Anh nhận chứng chỉ Google Developer Expert năm 2020'
}
res = nlp(QA_input)
print('pipeline: {}'.format(res))
#{'score': 0.5782045125961304, 'start': 45, 'end': 68, 'answer': 'xử lý ngôn ngữ tự nhiên'}
Proceso de inferencia más preciso (Usando estrategia de suma de características)
from infer import tokenize_function, data_collator, extract_answer
from model.mrc_model import MRCQuestionAnswering
from transformers import AutoTokenizer
model_checkpoint = "nguyenvulebinh/vi-mrc-large"
#model_checkpoint = "nguyenvulebinh/vi-mrc-base"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
model = MRCQuestionAnswering.from_pretrained(model_checkpoint)
QA_input = {
'question': 'Bình được công nhận với danh hiệu gì ?',
'context': 'Bình Nguyễn là một người đam mê với lĩnh vực xử lý ngôn ngữ tự nhiên . Anh nhận chứng chỉ Google Developer Expert năm 2020'
}
inputs = [tokenize_function(*QA_input)]
inputs_ids = data_collator(inputs)
outputs = model(**inputs_ids)
answer = extract_answer(inputs, outputs, tokenizer)
print(answer)
# answer: Google Developer Expert. Score start: 0.9926977753639221, Score end: 0.9909810423851013
Funcionalidades
- Modelo de lenguaje pre-entrenado: XLM-RoBERTa
- Afinado para: MRCQuestionAnswering
- Soporte de tareas downstream: QA extractiva
- Re-combinación de representaciones de sub-palabras a palabras usando una estrategia de suma
Casos de uso
- Responder preguntas en lengua vietnamita
- Evaluación de QA en conjuntos de pruebas vietnamitas
- Investigación y desarrollos en procesamiento de lenguaje natural