MiniLM-L12-H384-sin-codificación

microsoft
Clasificación de texto

MiniLM es un modelo distilado del artículo 'MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers'. Para más información sobre preprocesamiento, entrenamiento y detalles completos de MiniLM, consulte el repositorio original de MiniLM. Este punto de control puede ser una sustitución directa de BERT y necesita ser afinado antes de su uso.

Como usar

Si encuentra MiniLM útil en su investigación, cite el siguiente artículo:

@misc{wang2020minilm,
title={MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers},
author={Wenhui Wang and Furu Wei and Li Dong and Hangbo Bao and Nan Yang and Ming Zhou},
year={2020},
eprint={2002.10957},
archivePrefix={arXiv},
primaryClass={cs.CL}
}

Funcionalidades

MiniLMv1-L12-H384-sin-codificación: 12 capas, tamaño oculto de 384, 12 cabezas, 33M parámetros, 2.7x más rápido que BERT-Base

Casos de uso

Clasificación de texto
Puntos de referencia como SQuAD 2.0 y varias tareas de GLUE