BERT grande modelo (cased) con enmascaramiento de palabras completas afinado en SQuAD
Modelo grande de BERT (cased) preentrenado en el idioma inglés utilizando un objetivo de modelado de lenguaje enmascarado (MLM). Este modelo es sensible a las mayúsculas: diferencia entre 'english' e 'English'. Se entrenó con una nueva técnica: Enmascaramiento de Palabras Completas. Después del preentrenamiento, este modelo fue afinado en el conjunto de datos SQuAD. Fue preentrenado con dos objetivos: Modelado de lenguaje enmascarado (MLM) y Predicción de la siguiente oración (NSP). Este modelo tiene 24 capas, una dimensión oculta de 1024, 16 cabezas de atención, y 336 millones de parámetros.
Como usar
Este modelo debe usarse como un modelo de respuesta a preguntas. Puedes usarlo en una tubería de respuesta a preguntas, o usarlo para obtener resultados en bruto dados una consulta y un contexto. Para reproducir el entrenamiento, puedes usar el siguiente comando:
python -m torch.distributed.launch --nproc_per_node=8 ./examples/question-answering/run_qa.py \
--model_name_or_path bert-large-cased-whole-word-masking \
--dataset_name squad \
--do_train \
--do_eval \
--learning_rate 3e-5 \
--num_train_epochs 2 \
--max_seq_length 384 \
--doc_stride 128 \
--output_dir ./examples/models/wwm_cased_finetuned_squad/ \
--per_device_eval_batch_size=3 \
--per_device_train_batch_size=3 \
Funcionalidades
- Modelo de transformadores preentrenado en un gran corpus de datos en inglés
- Modelado de lenguaje enmascarado (MLM)
- Predicción de la siguiente oración (NSP)
- 24 capas
- Dimensión oculta de 1024
- 16 cabezas de atención
- 336 millones de parámetros
Casos de uso
- Pipelines de respuesta a preguntas
- Generar resultados en bruto dados una consulta y un contexto