mdeberta-v3-base-squad2
mDeBERTa es la versión multilingüe de DeBERTa que usa la misma estructura que DeBERTa y fue entrenada con datos multilingües de CC100. El modelo base mDeBERTa V3 viene con 12 capas y un tamaño de escondido de 768. Tiene 86M parámetros en el backbone y una vocabulario que contiene 250K tokens que introduce 190M parámetros en la capa de Embedding. Este modelo fue entrenado usando los datos de 2.5T CC100 como XLM-R. DeBERTa mejora los modelos BERT y RoBERTa utilizando atención descontextualizada y un decodificador de máscara mejorado. Con estas dos mejoras, DeBERTa supera a RoBERTa en la mayoría de las tareas de NLU con 80GB de datos de entrenamiento. En DeBERTa V3, mejoramos aún más la eficiencia de DeBERTa usando pre-entrenamiento estilo ELECTRA con Compartición de Embedding Descontextualizado por Gradientes. Comparado con DeBERTa, nuestra versión V3 mejora significativamente el desempeño del modelo en tareas descendentes. Puedes encontrar más detalles técnicos sobre el nuevo modelo en nuestro artículo. Consulta el repositorio oficial para más detalles de implementación y actualizaciones.
Como usar
from transformers import pipeline
qa_model = pipeline("question-answering", "timpal0l/mdeberta-v3-base-squad2")
question = "¿Dónde vivo?"
context = "Mi nombre es Tim y vivo en Suecia."
qa_model(question = question, context = context)
# {'score': 0.975547730922699, 'start': 28, 'end': 36, 'answer': ' Suecia.'}
Funcionalidades
- Atención descontextualizada
- Decodificador de máscara mejorado
- Pre-entrenamiento estilo ELECTRA con Compartición de Embedding Descontextualizado por Gradientes
- 12 capas
- 86M parámetros en el backbone
- 250K tokens en la capa de Embedding
- Entrenado con datos multilingües de CC100
- Tamaño de escondido de 768
Casos de uso
- Responder preguntas extractivas
- Tareas de comprensión de lenguaje natural (NLU)
- Aplicaciones multilingües