mrm8488/deberta-v3-small-finetuned-cola

mrm8488
Clasificación de texto

Este modelo es una versión ajustada de microsoft/deberta-v3-small en el conjunto de datos GLUE CoLA. Mejora los modelos BERT y RoBERTa utilizando atención desentrelazada y un decodificador de máscara mejorado. Estas mejoras le permiten superar a RoBERTa en la mayoría de las tareas de NLU con 80GB de datos de entrenamiento. En DeBERTa V3, reemplazamos el objetivo MLM con el objetivo RTD (Detección de Token Reemplazado) introducido por ELECTRA para el preentrenamiento, así como algunas innovaciones que presentaremos en nuestro próximo artículo. Comparado con DeBERTa-V2, nuestra versión V3 mejora significativamente el desempeño del modelo en tareas posteriores. El modelo pequeño DeBERTa V3 cuenta con 6 capas y un tamaño oculto de 768, con un total de 143 millones de parámetros, usando un vocabulario de 128K tokens que introduce 98 millones de parámetros en la capa de Embedding. Fue entrenado usando los 160GB de datos como DeBERTa V2.

Como usar

Hugging Face API

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("mrm8488/deberta-v3-small-finetuned-cola")
model = AutoModelForSequenceClassification.from_pretrained("mrm8488/deberta-v3-small-finetuned-cola")

inputs = tokenizer("The quick brown fox jumps over the lazy dog", return_tensors="pt")
outputs = model(**inputs)

Funcionalidades

Atención desentrelazada
Decodificador de máscara mejorado
Objetivo RTD (Detección de Token Reemplazado) para preentrenamiento
6 capas
Tamaño oculto de 768
143 millones de parámetros
Vocabulario de 128K tokens

Casos de uso

Clasificación de texto
Tareas de comprensión del lenguaje natural (NLU)