mrm8488/deberta-v3-small-finetuned-cola
Este modelo es una versión ajustada de microsoft/deberta-v3-small en el conjunto de datos GLUE CoLA. Mejora los modelos BERT y RoBERTa utilizando atención desentrelazada y un decodificador de máscara mejorado. Estas mejoras le permiten superar a RoBERTa en la mayoría de las tareas de NLU con 80GB de datos de entrenamiento. En DeBERTa V3, reemplazamos el objetivo MLM con el objetivo RTD (Detección de Token Reemplazado) introducido por ELECTRA para el preentrenamiento, así como algunas innovaciones que presentaremos en nuestro próximo artículo. Comparado con DeBERTa-V2, nuestra versión V3 mejora significativamente el desempeño del modelo en tareas posteriores. El modelo pequeño DeBERTa V3 cuenta con 6 capas y un tamaño oculto de 768, con un total de 143 millones de parámetros, usando un vocabulario de 128K tokens que introduce 98 millones de parámetros en la capa de Embedding. Fue entrenado usando los 160GB de datos como DeBERTa V2.
Como usar
Hugging Face API
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("mrm8488/deberta-v3-small-finetuned-cola")
model = AutoModelForSequenceClassification.from_pretrained("mrm8488/deberta-v3-small-finetuned-cola")
inputs = tokenizer("The quick brown fox jumps over the lazy dog", return_tensors="pt")
outputs = model(**inputs)
Funcionalidades
- Atención desentrelazada
- Decodificador de máscara mejorado
- Objetivo RTD (Detección de Token Reemplazado) para preentrenamiento
- 6 capas
- Tamaño oculto de 768
- 143 millones de parámetros
- Vocabulario de 128K tokens
Casos de uso
- Clasificación de texto
- Tareas de comprensión del lenguaje natural (NLU)