DistilCamemBERT-QA
Presentamos DistilCamemBERT-QA, que es DistilCamemBERT ajustado para la tarea de Pregunta-Respuesta en el idioma francés. Este modelo se construye utilizando dos conjuntos de datos, FQuAD v1.0 y Piaf, que contienen contextos y preguntas con sus respuestas dentro del contexto. Esta modelización es similar a etalab-ia/camembert-base-squadFR-fquad-piaf, basado en el modelo CamemBERT. El problema de las modelizaciones basadas en CamemBERT es el momento de escalamiento, para la fase de producción. De hecho, el costo de inferencia puede ser un problema tecnológico, especialmente en tareas de codificación cruzada como esta. Para contrarrestar este efecto, proponemos esta modelización que divide el tiempo de inferencia por 2 con el mismo consumo de energía, gracias a DistilCamemBERT.
Como usar
Cómo usar DistilCamemBERT-QA
from transformers import pipeline
qa_engine = pipeline(
"question-answering",
model="cmarkea/distilcamembert-base-qa",
tokenizer="cmarkea/distilcamembert-base-qa")
result = qa_engine(
context="David Fincher, né le 28 août 1962 à Denver (Colorado), "
"est un réalisateur et producteur américain. Il est principalement "
"connu pour avoir réalisé les films Seven, Fight Club, L'Étrange "
"Histoire de Benjamin Button, The Social Network et Gone Girl qui "
"lui ont valu diverses récompenses et nominations aux Oscars du "
"cinéma ou aux Golden Globes. Réputé pour son perfectionnisme, il "
"peut tourner un très grand nombre de prises de ses plans et "
"séquences afin d'obtenir le rendu visuel qu'il désire. Il a "
"également développé et produit les séries télévisées House of "
"Cards (pour laquelle il remporte l'Emmy Award de la meilleure "
"réalisation pour une série dramatique en 2013) et Mindhunter, "
"diffusées sur Netflix.",
question="Quel est le métier de David Fincher ?")
result
{'score': 0.7981914281845093,
'start': 61,
'end': 98,
'answer': ' réalisateur et producteur américain.'}
Optimum + ONNX
from optimum.onnxruntime import ORTModelForQuestionAnswering
from transformers import AutoTokenizer, pipeline
HUB_MODEL = "cmarkea/distilcamembert-base-qa"
tokenizer = AutoTokenizer.from_pretrained(HUB_MODEL)
model = ORTModelForQuestionAnswering.from_pretrained(HUB_MODEL)
onnx_qa = pipeline("question-answering", model=model, tokenizer=tokenizer)
# Quantized onnx model
quantized_model = ORTModelForQuestionAnswering.from_pretrained(
HUB_MODEL, file_name="model_quantized.onnx")
Funcionalidades
- Tarea de Pregunta-Respuesta
- Optimizado para el idioma francés
- Utiliza los conjuntos de datos FQuAD v1.0 y Piaf
- Reducción del tiempo de inferencia a la mitad
- Basado en el modelo DistilCamemBERT
Casos de uso
- Responder preguntas basadas en un contexto dado en francés
- Optimización del tiempo de inferencia para aplicaciones de producción
- Uso en aplicaciones de procesamiento de lenguaje natural en competencias y benchmarking