microsoft/deberta-large-mnli

microsoft
Clasificación de texto

DeBERTa mejora los modelos BERT y RoBERTa utilizando atención desentrelazada y un decodificador de máscara mejorado. Supera a BERT y RoBERTa en la mayoría de tareas de NLU con datos de entrenamiento de 80GB. Este es el modelo DeBERTa grande afinado con la tarea MNLI.

Como usar

cd transformers/examples/text-classification/
export TASK_NAME=mrpc
python -m torch.distributed.launch --nproc_per_node=8 run_glue.py \
--model_name_or_path microsoft/deberta-v2-xxlarge \
--task_name $TASK_NAME --do_train \
--do_eval \
--max_seq_length 128 \
--per_device_train_batch_size 4 \
--learning_rate 3e-6 \
--num_train_epochs 3 \
--output_dir /tmp/$TASK_NAME/ --overwrite_output_dir --sharded_ddp --fp16

Funcionalidades

Atención desentrelazada
Decodificador de máscara mejorado
Rendimiento superior en tareas de NLU
Entrenado con 80GB de datos

Casos de uso

Clasificación de texto
Evaluaciones de NLU
Tareas de afinamiento en benchmarks de GLUE