microsoft/deberta-v2-xxlarge-mnli

microsoft
Clasificación de texto

DeBERTa mejora los modelos BERT y RoBERTa utilizando atención desentrelazada y un decodificador de máscara mejorado. Supera a BERT y RoBERTa en la mayoría de las tareas de NLU con 80GB de datos de entrenamiento. Este es el modelo DeBERTa V2 XXLarge afinado con la tarea MNLI, con 48 capas y un tamaño oculto de 1536. El total de parámetros es de 1.5B.

Como usar

Run with Deepspeed,
pip install datasets
pip install deepspeed

# Download the deepspeed config file
wget https://huggingface.co/microsoft/deberta-v2-xxlarge-mnli/resolve/main/ds_config.json -O ds_config.json

export TASK_NAME=rte
output_dir="ds_results"
num_gpus=8
batch_size=4
python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
run_glue.py \
--model_name_or_path microsoft/deberta-v2-xxlarge-mnli \
--task_name $TASK_NAME \
--do_train \
--do_eval \
--max_seq_length 256 \
--per_device_train_batch_size ${batch_size} \
--learning_rate 3e-6 \
--num_train_epochs 3 \
--output_dir $output_dir \
--overwrite_output_dir \
--logging_steps 10 \
--logging_dir $output_dir \
--deepspeed ds_config.json

You can also run with --sharded_ddp
cd transformers/examples/text-classification/
export TASK_NAME=rte
python -m torch.distributed.launch --nproc_per_node=8 run_glue.py   --model_name_or_path microsoft/deberta-v2-xxlarge-mnli   \
--task_name $TASK_NAME --do_train   --do_eval   --max_seq_length 256   --per_device_train_batch_size 4   \
--learning_rate 3e-6   --num_train_epochs 3   --output_dir /tmp/$TASK_NAME/ --overwrite_output_dir --sharded_ddp --fp16

Funcionalidades

48 capas
1536 tamaño oculto
1.5B parámetros
Atención desentrelazada
Decodificador de máscara mejorado

Casos de uso

Clasificación de texto
Tareas de NLU
Evaluaciones en SQuAD 1.1/2.0
Benchmark GLUE