codebert-code-clone-detector

4luc

Similitud de oraciones

Este modelo es una versión ajustada de microsoft/codebert-base en un conjunto de datos de Code Clone Benchmark. Ve este repositorio de GitHub para más información. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 0.3452, Precisión: 0.9525, Exactitud: 0.9544, Recuperación: 0.9496, F1: 0.9520.

Como usar

## Procedimiento de entrenamiento
Los siguientes hiperparámetros se usaron durante el entrenamiento:
tasa_de_aprendizaje: 2e-05
tamaño_de_lote_entrenamiento: 16
tamaño_de_lote_eval: 16
semilla: 42
optimizador: Adam con betas=(0.9,0.999) y epsilon=1e-08
tipo_de_programador_lr: linear
num_epocas: 15

## Resultados del entrenamiento
Pérdida del entrenamiento
Época
Paso
Pérdida de validación
Precisión
Exactitud
Recuperación
F1

0.3416
0.49
33
0.1724
0.9417
0.9828
0.9048
0.9421

0.221
0.97
66
0.2768
0.925
1.0
0.8571
0.9231

0.0929
1.46
99
0.2469
0.9583
1.0
0.9206
0.9587

0.1696
1.94
132
0.2142
0.95
0.9524
0.9524
0.9524

0.0818
2.43
165
0.4142
0.925
1.0
0.8571
0.9231

0.0676
2.91
198
0.3539
0.9333
0.9508
0.9206
0.9355

## Versiones del marco
Transformers 4.39.3
Pytorch 2.1.2
Conjuntos de datos 2.18.0
Tokenizadores 0.15.2

Funcionalidades

Transformadores
Safetensors
roberta
Clasificación de texto
Generado desde Entrenador
Similitud de oraciones
Modelo base: microsoft/codebert-base
Modelo afinado: microsoft/codebert-base
Compatible con AutoTrain
Inferencia de incrustaciones de texto
Puntos finales de inferencia
Licencia: mit
Región: US

Casos de uso

Detección de Clones de Código
Similitud entre oraciones
Clasificación de Texto
Incrustaciones de Texto