microsoft/deberta-v2-xxlarge-mnli
microsoft
Clasificación de texto
DeBERTa mejora los modelos BERT y RoBERTa utilizando atención desentrelazada y un decodificador de máscara mejorado. Supera a BERT y RoBERTa en la mayoría de las tareas de NLU con 80GB de datos de entrenamiento. Este es el modelo DeBERTa V2 XXLarge afinado con la tarea MNLI, con 48 capas y un tamaño oculto de 1536. El total de parámetros es de 1.5B.
Como usar
Run with Deepspeed,
pip install datasets
pip install deepspeed
# Download the deepspeed config file
wget https://huggingface.co/microsoft/deberta-v2-xxlarge-mnli/resolve/main/ds_config.json -O ds_config.json
export TASK_NAME=rte
output_dir="ds_results"
num_gpus=8
batch_size=4
python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
run_glue.py \
--model_name_or_path microsoft/deberta-v2-xxlarge-mnli \
--task_name $TASK_NAME \
--do_train \
--do_eval \
--max_seq_length 256 \
--per_device_train_batch_size ${batch_size} \
--learning_rate 3e-6 \
--num_train_epochs 3 \
--output_dir $output_dir \
--overwrite_output_dir \
--logging_steps 10 \
--logging_dir $output_dir \
--deepspeed ds_config.json
You can also run with --sharded_ddp
cd transformers/examples/text-classification/
export TASK_NAME=rte
python -m torch.distributed.launch --nproc_per_node=8 run_glue.py --model_name_or_path microsoft/deberta-v2-xxlarge-mnli \
--task_name $TASK_NAME --do_train --do_eval --max_seq_length 256 --per_device_train_batch_size 4 \
--learning_rate 3e-6 --num_train_epochs 3 --output_dir /tmp/$TASK_NAME/ --overwrite_output_dir --sharded_ddp --fp16
Funcionalidades
- 48 capas
- 1536 tamaño oculto
- 1.5B parámetros
- Atención desentrelazada
- Decodificador de máscara mejorado
Casos de uso
- Clasificación de texto
- Tareas de NLU
- Evaluaciones en SQuAD 1.1/2.0
- Benchmark GLUE