microsoft/deberta-xlarge-mnli

microsoft
Clasificación de texto

DeBERTa mejora los modelos de BERT y RoBERTa utilizando atención desentrelazada y un decodificador de máscara mejorado. Supera a BERT y RoBERTa en la mayoría de las tareas de NLU con 80GB de datos de entrenamiento. Este es el modelo DeBERTa xlarge (750M) afinado con la tarea mnli.

Como usar

Para usar el modelo DeBERTa-V2-XXLarge1 con transformadores de HF, debe especificar --sharded_ddp.

cd transformers/examples/text-classification/
export TASK_NAME=mrpc
python -m torch.distributed.launch --nproc_per_node=8 run_glue.py \
--model_name_or_path microsoft/deberta-v2-xxlarge \
--task_name $TASK_NAME --do_train \
--do_eval \
--max_seq_length 128 \
--per_device_train_batch_size 4 \
--learning_rate 3e-6 \
--num_train_epochs 3 \
--output_dir /tmp/$TASK_NAME/ --overwrite_output_dir --sharded_ddp --fp16

Funcionalidades

Atención desentrelazada
Decodificador de máscara mejorado
Entrenamiento con 80GB de datos
Supera a BERT y RoBERTa en tareas de NLU

Casos de uso

Clasificación de texto
Tareas de NLU
Evaluación de modelos en SQuAD 1.1/2.0 y diversas tareas de GLUE