microsoft/Multilingual-MiniLM-L12-H384

microsoft

Clasificación de texto

MiniLM es un modelo destilado del documento 'MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers'. Se utiliza para la comprensión y generación de lenguaje. Este punto de control usa BertModel con XLMRobertaTokenizer, por lo que AutoTokenizer no funcionará con este punto de control.

Como usar

Este ejemplo de código ajusta el MiniLM multilingüe de 12 capas en XNLI.
# run fine-tuning on XNLI
DATA_DIR=/{path_of_data}/
OUTPUT_DIR=/{path_of_fine-tuned_model}/
MODEL_PATH=/{path_of_pre-trained_model}/

python ./examples/run_xnli.py --model_type minilm --output_dir ${OUTPUT_DIR} --data_dir ${DATA_DIR} --model_name_or_path microsoft/Multilingual-MiniLM-L12-H384 --tokenizer_name xlm-roberta-base --config_name ${MODEL_PATH}/multilingual-minilm-l12-h384-config.json --do_train --do_eval --max_seq_length 128 --per_gpu_train_batch_size 128 --learning_rate 5e-5 --num_train_epochs 5 --per_gpu_eval_batch_size 32 --weight_decay 0.001 --warmup_steps 500 --save_steps 1500 --logging_steps 1500 --eval_all_checkpoints --language en --fp16 --fp16_opt_level O2

Funcionalidades

Modelo preentrenado multilingüe
12 capas
384 unidades ocultas
12 cabezas
21M parámetros del transformador
96M parámetros de incrustación

Casos de uso

Inferencia de lenguaje natural y multilingüe
Respuestas a preguntas multilingües
Transferencia entre lenguajes cruzados