microsoft/deberta-v2-xlarge-mnli
microsoft
Clasificación de texto
DeBERTa mejora los modelos BERT y RoBERTa utilizando atención desentrelazada y un decodificador mejorado de máscara. Supera a BERT y RoBERTa en la mayoría de las tareas de NLU con 80GB de datos de entrenamiento. Este es el modelo DeBERTa V2 xlarge afinado con la tarea MNLI, 24 capas, tamaño oculto de 1536. Total de parámetros 900M.
Como usar
cd transformers/examples/text-classification/
export TASK_NAME=mrpc
python -m torch.distributed.launch --nproc_per_node=8 run_glue.py --model_name_or_path microsoft/deberta-v2-xxlarge \
--task_name $TASK_NAME --do_train --do_eval --max_seq_length 128 --per_device_train_batch_size 4 \
--learning_rate 3e-6 --num_train_epochs 3 --output_dir /tmp/$TASK_NAME/ --overwrite_output_dir --sharded_ddp --fp16
Funcionalidades
- 24 capas
- Tamaño oculto de 1536
- 900 millones de parámetros
- Afinado con la tarea MNLI
- Mejora sobre modelos BERT y RoBERTa
- Utiliza atención desentrelazada
- Decodificador de máscara mejorado
Casos de uso
- Clasificación de texto
- Puntos de referencia de GLUE
- Tareas de NLU