microsoft/xtremedistil-l6-h384-uncased
XtremeDistilTransformers es un modelo transformador destilado independiente de la tarea que aprovecha la transferencia de tareas para aprender un modelo universal pequeño que se puede aplicar a tareas y idiomas arbitrarios, como se describe en el artículo XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation. Utilizamos la transferencia de tareas combinada con técnicas de destilación multitarea de los artículos XtremeDistil: Multi-stage Distillation for Massive Multilingual Models y MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers con el siguiente código de Github. Este punto de control l6-h384 con 6 capas, tamaño oculto de 384, y 12 cabezas de atención corresponde a 22 millones de parámetros con una aceleración de 5.3x sobre BERT-base.
Como usar
Si utiliza este punto de control en su trabajo, cite por favor:
@misc{mukherjee2021xtremedistiltransformers,
title={XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation},
author={Subhabrata Mukherjee and Ahmed Hassan Awadallah and Jianfeng Gao},
year={2021},
eprint={2106.04563},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Funcionalidades
- Modelo transformador destilado independiente de la tarea
- Transferencia de tareas
- Técnicas de destilación multitarea
- 6 capas
- Tamaño oculto de 384
- 12 cabezas de atención
- 22 millones de parámetros
- Aceleración de 5.3x sobre BERT-base
Casos de uso
- Clasificación de textos
- Extracción de características (feature-extraction)