iproskurina/tda-roberta-large-en-cola
iproskurina
Clasificación de texto
Este modelo es una versión de roberta-large afinado en CoLA. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 0.6823 Precisión: 0.8729 Mcc: 0.6922
Como usar
Para construir el pipeline de clasificación con características TDA, consulte los notebooks 4* y 5* del repositorio.
Parámetros de entrenamiento
learning_rate: 2e-05
train_batch_size: 32
eval_batch_size: 8
seed: 42
optimizer: Adam con betas=(0.9,0.999) y epsilon=1e-08
lr_scheduler_type: linear
num_epochs: 5.0
Funcionalidades
- Las características topológicas son propiedades de los grafos de atención. Las características de los grafos de atención dirigidos incluyen el número de componentes fuertemente conectados, bordes, ciclos simples y grado promedio de vértices.
- Las propiedades de los grafos no dirigidos incluyen los dos primeros números de Betti: el número de componentes conectados y el número de ciclos simples, el número de coincidencias y la cordonalidad.
- Las características derivadas de códigos de barras incluyen características descriptivas de códigos de barras de 0/1 dimensiones y reflejan la supervivencia (muerte y nacimiento) de componentes conectados y bordes a lo largo de la filtración.
- Las características de distancia al patrón miden la distancia entre matrices de atención y matrices identidad de patrones de atención predefinidos, como atención al primer token [CLS] y al último [SEP] de la secuencia, atención al token anterior y siguiente, y a los signos de puntuación.
Casos de uso
- Clasificación de texto para identificar la aceptabilidad lingüística en oraciones.
- Extracción de características topológicas de mapas de atención en modelos de lenguaje.