mdeberta-v3-base-squad2

timpal0l
Pregunta y respuesta

mDeBERTa es la versión multilingüe de DeBERTa que usa la misma estructura que DeBERTa y fue entrenada con datos multilingües de CC100. El modelo base mDeBERTa V3 viene con 12 capas y un tamaño de escondido de 768. Tiene 86M parámetros en el backbone y una vocabulario que contiene 250K tokens que introduce 190M parámetros en la capa de Embedding. Este modelo fue entrenado usando los datos de 2.5T CC100 como XLM-R. DeBERTa mejora los modelos BERT y RoBERTa utilizando atención descontextualizada y un decodificador de máscara mejorado. Con estas dos mejoras, DeBERTa supera a RoBERTa en la mayoría de las tareas de NLU con 80GB de datos de entrenamiento. En DeBERTa V3, mejoramos aún más la eficiencia de DeBERTa usando pre-entrenamiento estilo ELECTRA con Compartición de Embedding Descontextualizado por Gradientes. Comparado con DeBERTa, nuestra versión V3 mejora significativamente el desempeño del modelo en tareas descendentes. Puedes encontrar más detalles técnicos sobre el nuevo modelo en nuestro artículo. Consulta el repositorio oficial para más detalles de implementación y actualizaciones.

Como usar

from transformers import pipeline

qa_model = pipeline("question-answering", "timpal0l/mdeberta-v3-base-squad2")
question = "¿Dónde vivo?"
context = "Mi nombre es Tim y vivo en Suecia."
qa_model(question = question, context = context)
# {'score': 0.975547730922699, 'start': 28, 'end': 36, 'answer': ' Suecia.'}

Funcionalidades

Atención descontextualizada
Decodificador de máscara mejorado
Pre-entrenamiento estilo ELECTRA con Compartición de Embedding Descontextualizado por Gradientes
12 capas
86M parámetros en el backbone
250K tokens en la capa de Embedding
Entrenado con datos multilingües de CC100
Tamaño de escondido de 768

Casos de uso

Responder preguntas extractivas
Tareas de comprensión de lenguaje natural (NLU)
Aplicaciones multilingües