microsoft/deberta-xlarge-mnli
microsoft
Clasificación de texto
DeBERTa mejora los modelos de BERT y RoBERTa utilizando atención desentrelazada y un decodificador de máscara mejorado. Supera a BERT y RoBERTa en la mayoría de las tareas de NLU con 80GB de datos de entrenamiento. Este es el modelo DeBERTa xlarge (750M) afinado con la tarea mnli.
Como usar
Para usar el modelo DeBERTa-V2-XXLarge1 con transformadores de HF, debe especificar --sharded_ddp.
cd transformers/examples/text-classification/
export TASK_NAME=mrpc
python -m torch.distributed.launch --nproc_per_node=8 run_glue.py \
--model_name_or_path microsoft/deberta-v2-xxlarge \
--task_name $TASK_NAME --do_train \
--do_eval \
--max_seq_length 128 \
--per_device_train_batch_size 4 \
--learning_rate 3e-6 \
--num_train_epochs 3 \
--output_dir /tmp/$TASK_NAME/ --overwrite_output_dir --sharded_ddp --fp16
Funcionalidades
- Atención desentrelazada
- Decodificador de máscara mejorado
- Entrenamiento con 80GB de datos
- Supera a BERT y RoBERTa en tareas de NLU
Casos de uso
- Clasificación de texto
- Tareas de NLU
- Evaluación de modelos en SQuAD 1.1/2.0 y diversas tareas de GLUE