microsoft/deberta-v2-xlarge-mnli

microsoft
Clasificación de texto

DeBERTa mejora los modelos BERT y RoBERTa utilizando atención desentrelazada y un decodificador mejorado de máscara. Supera a BERT y RoBERTa en la mayoría de las tareas de NLU con 80GB de datos de entrenamiento. Este es el modelo DeBERTa V2 xlarge afinado con la tarea MNLI, 24 capas, tamaño oculto de 1536. Total de parámetros 900M.

Como usar

cd transformers/examples/text-classification/
export TASK_NAME=mrpc
python -m torch.distributed.launch --nproc_per_node=8 run_glue.py --model_name_or_path microsoft/deberta-v2-xxlarge \
--task_name $TASK_NAME --do_train --do_eval --max_seq_length 128 --per_device_train_batch_size 4 \
--learning_rate 3e-6 --num_train_epochs 3 --output_dir /tmp/$TASK_NAME/ --overwrite_output_dir --sharded_ddp --fp16

Funcionalidades

24 capas
Tamaño oculto de 1536
900 millones de parámetros
Afinado con la tarea MNLI
Mejora sobre modelos BERT y RoBERTa
Utiliza atención desentrelazada
Decodificador de máscara mejorado

Casos de uso

Clasificación de texto
Puntos de referencia de GLUE
Tareas de NLU