microsoft/deberta-large-mnli
microsoft
Clasificación de texto
DeBERTa mejora los modelos BERT y RoBERTa utilizando atención desentrelazada y un decodificador de máscara mejorado. Supera a BERT y RoBERTa en la mayoría de tareas de NLU con datos de entrenamiento de 80GB. Este es el modelo DeBERTa grande afinado con la tarea MNLI.
Como usar
cd transformers/examples/text-classification/
export TASK_NAME=mrpc
python -m torch.distributed.launch --nproc_per_node=8 run_glue.py \
--model_name_or_path microsoft/deberta-v2-xxlarge \
--task_name $TASK_NAME --do_train \
--do_eval \
--max_seq_length 128 \
--per_device_train_batch_size 4 \
--learning_rate 3e-6 \
--num_train_epochs 3 \
--output_dir /tmp/$TASK_NAME/ --overwrite_output_dir --sharded_ddp --fp16
Funcionalidades
- Atención desentrelazada
- Decodificador de máscara mejorado
- Rendimiento superior en tareas de NLU
- Entrenado con 80GB de datos
Casos de uso
- Clasificación de texto
- Evaluaciones de NLU
- Tareas de afinamiento en benchmarks de GLUE