distilbert-multi-finetuned-for-xqua-on-tydiqa

mrm8488
Pregunta y respuesta

DistilBERT multilingüe ajustado en el conjunto de datos TydiQA (tarea GoldP) para preguntas y respuestas multilingües. TyDi QA contiene 200k pares de preguntas y respuestas anotadas manualmente en 11 idiomas tipológicamente diversos, escritas sin ver la respuesta y sin el uso de traducción, y está diseñado para la capacitación y evaluación de sistemas automáticos de preguntas y respuestas.

Como usar

python transformers/examples/question-answering/run_squad.py \
--model_type distilbert \
--model_name_or_path distilbert-base-multilingual-cased \
--do_train \
--do_eval \
--train_file /path/to/dataset/train.json \
--predict_file /path/to/dataset/dev.json \
--per_gpu_train_batch_size 24 \
--per_gpu_eval_batch_size 24 \
--learning_rate 3e-5 \
--num_train_epochs 5 \
--max_seq_length 384 \
--doc_stride 128 \
--output_dir /content/model_output \
--overwrite_output_dir \
--save_steps 1000 \
--threads 400

Funcionalidades

DistilBERT multilingüe ajustado en TydiQA (tarea GoldP)
Predicción del único fragmento continuo de caracteres que responde a la pregunta
Evaluación con las métricas de SQuAD 1.1
Ajustado en una GPU Tesla P100 y 25GB de RAM

Casos de uso

Sistemas de preguntas y respuestas automáticas
Evaluación de respuestas garantizadas dentro de un pasaje dado