BioM-ELECTRA-Large-SQuAD2

sultan

Pregunta y respuesta

BioM-ELECTRA-Large, que se perfeccionó con el conjunto de datos de SQuAD2.0, fue preentrenado en los resúmenes de PubMed. Afinar el modelo de lenguaje biomédico en el conjunto de datos de SQuAD ayuda a mejorar la puntuación en el desafío BioASQ. Si planeas trabajar con BioASQ o tareas de preguntas y respuestas biomédicas, es mejor usar este modelo en lugar de BioM-ELECTRA-Large. Este modelo (versión TensorFlow) tomó la delantera en el desafío BioASQ9b-Factoid (Lote 5) bajo el nombre de (UDEL-LAB2). La biblioteca de Huggingface no implementa la función de decaimiento por capas, lo que afecta el rendimiento en la tarea de SQuAD. El resultado reportado de BioM-ELECTRA-SQuAD en nuestro documento es 88.3 (F1) ya que usamos el código de código abierto de ELECTRA con el punto de control TF, que utiliza el decaimiento por capas.

Como usar

run_qa.py --model_name_or_path sultan/BioM-ELECTRA-Large-Discriminator \
--dataset_name squad_v2 \
--do_train \
--do_eval \
--dataloader_num_workers 20 \
--preprocessing_num_workers 20 \
--version_2_with_negative \
--num_train_epochs 2 \
--learning_rate 5e-5 \
--max_seq_length 512 \
--doc_stride 128 \
--per_device_train_batch_size 8 \
--gradient_accumulation_steps 6 \
--per_device_eval_batch_size 128
--fp16 \
--fp16_opt_level O1 \
--logging_steps 50 \
--save_steps 1000 \
--overwrite_output_dir \
--output_dir out

python /content/transformers/examples/pytorch/question-answering/run_qa.py --model_name_or_path sultan/BioM-ELECTRA-Large-SQuAD2 \
--do_eval \
--version_2_with_negative \
--per_device_eval_batch_size 8 \
--dataset_name squad_v2 \
--overwrite_output_dir \
--fp16 \
--output_dir out

Funcionalidades

Modelo biomédico de gran escala
Ajuste fino con conjuntos de datos específicos
Rendimiento de vanguardia en tareas biomédicas
Integrado con Hugging Face y TensorFlow
Capacidad de procesamiento de GPU y TPU

Casos de uso

Tareas de preguntas y respuestas en el dominio biomédico
Desafíos BioASQ
Investigación biomédica
Aceleración de búsquedas de literatura médica