DistilCamemBERT-QA

cmarkea
Pregunta y respuesta

Presentamos DistilCamemBERT-QA, que es DistilCamemBERT ajustado para la tarea de Pregunta-Respuesta en el idioma francés. Este modelo se construye utilizando dos conjuntos de datos, FQuAD v1.0 y Piaf, que contienen contextos y preguntas con sus respuestas dentro del contexto. Esta modelización es similar a etalab-ia/camembert-base-squadFR-fquad-piaf, basado en el modelo CamemBERT. El problema de las modelizaciones basadas en CamemBERT es el momento de escalamiento, para la fase de producción. De hecho, el costo de inferencia puede ser un problema tecnológico, especialmente en tareas de codificación cruzada como esta. Para contrarrestar este efecto, proponemos esta modelización que divide el tiempo de inferencia por 2 con el mismo consumo de energía, gracias a DistilCamemBERT.

Como usar

Cómo usar DistilCamemBERT-QA

from transformers import pipeline

qa_engine = pipeline(
"question-answering",
model="cmarkea/distilcamembert-base-qa",
tokenizer="cmarkea/distilcamembert-base-qa")

result = qa_engine(
context="David Fincher, né le 28 août 1962 à Denver (Colorado), "
"est un réalisateur et producteur américain. Il est principalement "
"connu pour avoir réalisé les films Seven, Fight Club, L'Étrange "
"Histoire de Benjamin Button, The Social Network et Gone Girl qui "
"lui ont valu diverses récompenses et nominations aux Oscars du "
"cinéma ou aux Golden Globes. Réputé pour son perfectionnisme, il "
"peut tourner un très grand nombre de prises de ses plans et "
"séquences afin d'obtenir le rendu visuel qu'il désire. Il a "
"également développé et produit les séries télévisées House of "
"Cards (pour laquelle il remporte l'Emmy Award de la meilleure "
"réalisation pour une série dramatique en 2013) et Mindhunter, "
"diffusées sur Netflix.",
question="Quel est le métier de David Fincher ?")

result
{'score': 0.7981914281845093,
'start': 61,
'end': 98,
'answer': ' réalisateur et producteur américain.'}

Optimum + ONNX

from optimum.onnxruntime import ORTModelForQuestionAnswering
from transformers import AutoTokenizer, pipeline

HUB_MODEL = "cmarkea/distilcamembert-base-qa"

tokenizer = AutoTokenizer.from_pretrained(HUB_MODEL)
model = ORTModelForQuestionAnswering.from_pretrained(HUB_MODEL)
onnx_qa = pipeline("question-answering", model=model, tokenizer=tokenizer)

# Quantized onnx model
quantized_model = ORTModelForQuestionAnswering.from_pretrained(
HUB_MODEL, file_name="model_quantized.onnx")

Funcionalidades

Tarea de Pregunta-Respuesta
Optimizado para el idioma francés
Utiliza los conjuntos de datos FQuAD v1.0 y Piaf
Reducción del tiempo de inferencia a la mitad
Basado en el modelo DistilCamemBERT

Casos de uso

Responder preguntas basadas en un contexto dado en francés
Optimización del tiempo de inferencia para aplicaciones de producción
Uso en aplicaciones de procesamiento de lenguaje natural en competencias y benchmarking