iproskurina/tda-roberta-large-en-cola

iproskurina
Clasificación de texto

Este modelo es una versión de roberta-large afinado en CoLA. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 0.6823 Precisión: 0.8729 Mcc: 0.6922

Como usar

Para construir el pipeline de clasificación con características TDA, consulte los notebooks 4* y 5* del repositorio.

Parámetros de entrenamiento

learning_rate: 2e-05
train_batch_size: 32
eval_batch_size: 8
seed: 42
optimizer: Adam con betas=(0.9,0.999) y epsilon=1e-08
lr_scheduler_type: linear
num_epochs: 5.0

Funcionalidades

Las características topológicas son propiedades de los grafos de atención. Las características de los grafos de atención dirigidos incluyen el número de componentes fuertemente conectados, bordes, ciclos simples y grado promedio de vértices.
Las propiedades de los grafos no dirigidos incluyen los dos primeros números de Betti: el número de componentes conectados y el número de ciclos simples, el número de coincidencias y la cordonalidad.
Las características derivadas de códigos de barras incluyen características descriptivas de códigos de barras de 0/1 dimensiones y reflejan la supervivencia (muerte y nacimiento) de componentes conectados y bordes a lo largo de la filtración.
Las características de distancia al patrón miden la distancia entre matrices de atención y matrices identidad de patrones de atención predefinidos, como atención al primer token [CLS] y al último [SEP] de la secuencia, atención al token anterior y siguiente, y a los signos de puntuación.

Casos de uso

Clasificación de texto para identificar la aceptabilidad lingüística en oraciones.
Extracción de características topológicas de mapas de atención en modelos de lenguaje.