letrunglinh/qa_pnc

letrunglinh
Pregunta y respuesta

Modelo de lenguaje: XLM-RoBERTa afinado con MRCQuestionAnswering para tareas de Preguntas y Respuestas. Este modelo está destinado a ser utilizado para QA en el idioma vietnamita, aunque también funciona bien en inglés. El conjunto de datos incluye Squad 2.0, mailong25 y VLSP MRC 2021. Este modelo logró la primera posición en la tabla de clasificación de VLSP MRC 2021.

Como usar

Usar el modelo pre-entrenado

Hugging Face estilo pipeline (NO usando la estrategia de suma de características).

from transformers import pipeline
# model_checkpoint = "nguyenvulebinh/vi-mrc-large"
model_checkpoint = "nguyenvulebinh/vi-mrc-base"
nlp = pipeline('question-answering', model=model_checkpoint,
tokenizer=model_checkpoint)
QA_input = {
'question': "Bình là un experto en qué?",
'context': "Bình Nguyễn es un apasionado del procesamiento del lenguaje natural. Recibió el certificado de Experto en Desarrolladores de Google en 2020"
}
res = nlp(QA_input)
print('pipeline: {}'.format(res))
# {'score': 0.5782045125961304, 'start': 45, 'end': 68, 'answer': 'procesamiento del lenguaje natural'}

Proceso de inferencia más preciso (usando la estrategia de suma de características).

from infer import tokenize_function, data_collator, extract_answer
from model.mrc_model import MRCQuestionAnswering
from transformers import AutoTokenizer

model_checkpoint = "nguyenvulebinh/vi-mrc-large"
#model_checkpoint = "nguyenvulebinh/vi-mrc-base"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
model = MRCQuestionAnswering.from_pretrained(model_checkpoint)

QA_input = {
'question': "¿Con qué título fue reconocido Bình?",
'context': "Bình Nguyễn es un apasionado del procesamiento del lenguaje natural. Recibió el certificado de Experto en Desarrolladores de Google en 2020"
}

inputs = [tokenize_function(*QA_input)]
inputs_ids = data_collator(inputs)
outputs = model(**inputs_ids)
answer = extract_answer(inputs, outputs, tokenizer)

print(answer)
# answer: Experto en Desarrolladores de Google. Puntuación inicio: 0.9926977753639221, Puntuación fin: 0.9909810423851013

Funcionalidades

Modelo de lenguaje: XLM-RoBERTa
Tarea a realizar: Preguntas y Respuestas Extractivas
Conjunto de datos combinando inglés y vietnamita: Squad 2.0, mailong25, VLSP MRC 2021
Logro: Primera posición en la tabla de clasificación de VLSP MRC 2021
Procesamiento avanzado de sub-palabras usando la estrategia de suma

Casos de uso

Responder preguntas en el idioma vietnamita
Evaluación de preguntas y respuestas en inglés y vietnamita
Participación en competencias de Preguntas y Respuestas