microsoft/xtremedistil-l6-h384-uncased

microsoft

Clasificación de texto

XtremeDistilTransformers es un modelo transformador destilado independiente de la tarea que aprovecha la transferencia de tareas para aprender un modelo universal pequeño que se puede aplicar a tareas y idiomas arbitrarios, como se describe en el artículo XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation. Utilizamos la transferencia de tareas combinada con técnicas de destilación multitarea de los artículos XtremeDistil: Multi-stage Distillation for Massive Multilingual Models y MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers con el siguiente código de Github. Este punto de control l6-h384 con 6 capas, tamaño oculto de 384, y 12 cabezas de atención corresponde a 22 millones de parámetros con una aceleración de 5.3x sobre BERT-base.

Como usar

Si utiliza este punto de control en su trabajo, cite por favor:
@misc{mukherjee2021xtremedistiltransformers,
title={XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation},
author={Subhabrata Mukherjee and Ahmed Hassan Awadallah and Jianfeng Gao},
year={2021},
eprint={2106.04563},
archivePrefix={arXiv},
primaryClass={cs.CL}
}

Funcionalidades

Modelo transformador destilado independiente de la tarea
Transferencia de tareas
Técnicas de destilación multitarea
6 capas
Tamaño oculto de 384
12 cabezas de atención
22 millones de parámetros
Aceleración de 5.3x sobre BERT-base

Casos de uso

Clasificación de textos
Extracción de características (feature-extraction)