microsoft/xtremedistil-l6-h256-uncased

microsoft
Clasificación de texto

XtremeDistilTransformers es un modelo transformer distilado agnóstico a tareas que aprovecha la transferencia de tareas para aprender un modelo universal pequeño que puede aplicarse a tareas y idiomas arbitrarios, como se describe en el artículo XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation. Este modelo xtremedistil-l6-h256-uncased con 6 capas, tamaño oculto de 256, 12 cabezas de atención corresponde a 13 millones de parámetros con una aceleración de 8.7x sobre BERT-base.

Como usar

Uso del modelo no especificado directamente en el contenido proporcionado, se recomienda revisar la documentación y los archivos proporcionados en el repositorio para más detalles.

Funcionalidades

Transformers distilados agnósticos a tareas
Transferencia de tareas
Técnicas de destilación multitarea
6 capas
256 tamaño oculto
12 cabezas de atención
13 millones de parámetros
8.7x de aceleración sobre BERT-base

Casos de uso

Clasificación de texto
Extracción de características
Aplicaciones de inferencia de lenguaje