BERT grande modelo (cased) con enmascaramiento de palabras completas afinado en SQuAD

google-bert
Pregunta y respuesta

Modelo grande de BERT (cased) preentrenado en el idioma inglés utilizando un objetivo de modelado de lenguaje enmascarado (MLM). Este modelo es sensible a las mayúsculas: diferencia entre 'english' e 'English'. Se entrenó con una nueva técnica: Enmascaramiento de Palabras Completas. Después del preentrenamiento, este modelo fue afinado en el conjunto de datos SQuAD. Fue preentrenado con dos objetivos: Modelado de lenguaje enmascarado (MLM) y Predicción de la siguiente oración (NSP). Este modelo tiene 24 capas, una dimensión oculta de 1024, 16 cabezas de atención, y 336 millones de parámetros.

Como usar

Este modelo debe usarse como un modelo de respuesta a preguntas. Puedes usarlo en una tubería de respuesta a preguntas, o usarlo para obtener resultados en bruto dados una consulta y un contexto. Para reproducir el entrenamiento, puedes usar el siguiente comando:

python -m torch.distributed.launch --nproc_per_node=8 ./examples/question-answering/run_qa.py \
--model_name_or_path bert-large-cased-whole-word-masking \
--dataset_name squad \
--do_train \
--do_eval \
--learning_rate 3e-5 \
--num_train_epochs 2 \
--max_seq_length 384 \
--doc_stride 128 \
--output_dir ./examples/models/wwm_cased_finetuned_squad/ \
--per_device_eval_batch_size=3 \
--per_device_train_batch_size=3 \

Funcionalidades

Modelo de transformadores preentrenado en un gran corpus de datos en inglés
Modelado de lenguaje enmascarado (MLM)
Predicción de la siguiente oración (NSP)
24 capas
Dimensión oculta de 1024
16 cabezas de atención
336 millones de parámetros

Casos de uso

Pipelines de respuesta a preguntas
Generar resultados en bruto dados una consulta y un contexto