BioM-ALBERT-xxlarge-SQuAD2
Los transformadores BioM: Construcción de grandes modelos de lenguaje biomédico con BERT, ALBERT y ELECTRA. El impacto de las opciones de diseño en el rendimiento de los modelos de lenguaje biomédico ha sido recientemente un tema de investigación. En este documento, estudiamos empíricamente la adaptación del dominio biomédico con grandes modelos de transformadores utilizando diferentes opciones de diseño. Evaluamos el rendimiento de nuestros modelos preentrenados frente a otros modelos de lenguaje biomédico existentes en la literatura. Nuestros resultados muestran que logramos resultados de vanguardia en varias tareas del dominio biomédico a pesar de usar un costo computacional similar o menor en comparación con otros modelos en la literatura. Nuestros hallazgos destacan el significativo efecto de las opciones de diseño en la mejora del rendimiento de los modelos de lenguaje biomédico.
Como usar
Para reproducir resultados en Google Colab:
Asegúrate de tener GPU habilitada.
Clona e instala las librerías requeridas con este código:
!git clone https://github.com/huggingface/transformers
!pip3 install -e transformers
!pip3 install sentencepiece
!pip3 install -r /content/transformers/examples/pytorch/question-answering/requirements.txt
Ejecuta este código Python:
python /content/transformers/examples/pytorch/question-answering/run_qa.py --model_name_or_path BioM-ALBERT-xxlarge-SQuAD2 --do_eval --version_2_with_negative --per_device_eval_batch_size 8 --dataset_name squad_v2 --overwrite_output_dir --fp16 --output_dir out
No necesitas descargar el conjunto de datos SQuAD2. El código lo descargará desde el hub de datasets de Hugging Face.
Consulta nuestro repositorio en GitHub en https://github.com/salrowili/BioM-Transformers para checkpoints de TensorFlow y GluonNLP.
Funcionalidades
- Modelo adaptado al dominio biomédico
- Entrenado en el conjunto de datos SQuAD2.0
- Lideró el desafío BioASQ9b-Factoid
- Emparejado con TensorFlow y PyTorch
- Inclusión de decay en capas (Layer-Wise Decay) para mejorar el rendimiento
Casos de uso
- Tareas de preguntas y respuestas en el ámbito biomédico
- Mejora en las puntuaciones del desafío BioASQ
- Evaluación de modelos de lenguaje biomédico