distilbert-base-uncased-distilled-squad-int8-static-inc

Intel

Pregunta y respuesta

Este modelo es una versión cuantizada a INT8 del DistilBERT base uncased, que ha sido afinado en el Stanford Question Answering Dataset (SQuAD). La cuantización se realizó utilizando el Optimum-Intel de Hugging Face, aprovechando el Intel® Neural Compressor.

Como usar

Optimum Intel con Neural Compressor
from optimum.intel import INCModelForQuestionAnswering

model_id = "Intel/distilbert-base-uncased-distilled-squad-int8-static"
int8_model = INCModelForQuestionAnswering.from_pretrained(model_id)

Optimum con ONNX Runtime
from optimum.onnxruntime import ORTModelForQuestionAnswering

model = ORTModelForQuestionAnswering.from_pretrained('Intel/distilbert-base-uncased-distilled-squad-int8-static')

Funcionalidades

Cuantización a INT8
A finado en el conjunto de datos Stanford Question Answering Dataset (SQuAD)
Optimizado para inferencias rápidas y tamaño reducido
Disponibilidad en versiones PyTorch y ONNX

Casos de uso

Tareas de preguntas y respuestas
Escenarios que requieren inferencias rápidas y modelos de tamaño reducido
Aplicaciones en las cuales los recursos computacionales son limitados