microsoft/Multilingual-MiniLM-L12-H384
microsoft
Clasificación de texto
MiniLM es un modelo destilado del documento 'MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers'. Se utiliza para la comprensión y generación de lenguaje. Este punto de control usa BertModel con XLMRobertaTokenizer, por lo que AutoTokenizer no funcionará con este punto de control.
Como usar
Este ejemplo de código ajusta el MiniLM multilingüe de 12 capas en XNLI.
# run fine-tuning on XNLI
DATA_DIR=/{path_of_data}/
OUTPUT_DIR=/{path_of_fine-tuned_model}/
MODEL_PATH=/{path_of_pre-trained_model}/
python ./examples/run_xnli.py --model_type minilm --output_dir ${OUTPUT_DIR} --data_dir ${DATA_DIR} --model_name_or_path microsoft/Multilingual-MiniLM-L12-H384 --tokenizer_name xlm-roberta-base --config_name ${MODEL_PATH}/multilingual-minilm-l12-h384-config.json --do_train --do_eval --max_seq_length 128 --per_gpu_train_batch_size 128 --learning_rate 5e-5 --num_train_epochs 5 --per_gpu_eval_batch_size 32 --weight_decay 0.001 --warmup_steps 500 --save_steps 1500 --logging_steps 1500 --eval_all_checkpoints --language en --fp16 --fp16_opt_level O2
Funcionalidades
- Modelo preentrenado multilingüe
- 12 capas
- 384 unidades ocultas
- 12 cabezas
- 21M parámetros del transformador
- 96M parámetros de incrustación
Casos de uso
- Inferencia de lenguaje natural y multilingüe
- Respuestas a preguntas multilingües
- Transferencia entre lenguajes cruzados