codebert-code-clone-detector
4luc
Similitud de oraciones
Este modelo es una versión ajustada de microsoft/codebert-base en un conjunto de datos de Code Clone Benchmark. Ve este repositorio de GitHub para más información. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 0.3452, Precisión: 0.9525, Exactitud: 0.9544, Recuperación: 0.9496, F1: 0.9520.
Como usar
## Procedimiento de entrenamiento
Los siguientes hiperparámetros se usaron durante el entrenamiento:
tasa_de_aprendizaje: 2e-05
tamaño_de_lote_entrenamiento: 16
tamaño_de_lote_eval: 16
semilla: 42
optimizador: Adam con betas=(0.9,0.999) y epsilon=1e-08
tipo_de_programador_lr: linear
num_epocas: 15
## Resultados del entrenamiento
Pérdida del entrenamiento
Época
Paso
Pérdida de validación
Precisión
Exactitud
Recuperación
F1
0.3416
0.49
33
0.1724
0.9417
0.9828
0.9048
0.9421
0.221
0.97
66
0.2768
0.925
1.0
0.8571
0.9231
0.0929
1.46
99
0.2469
0.9583
1.0
0.9206
0.9587
0.1696
1.94
132
0.2142
0.95
0.9524
0.9524
0.9524
0.0818
2.43
165
0.4142
0.925
1.0
0.8571
0.9231
0.0676
2.91
198
0.3539
0.9333
0.9508
0.9206
0.9355
## Versiones del marco
Transformers 4.39.3
Pytorch 2.1.2
Conjuntos de datos 2.18.0
Tokenizadores 0.15.2
Funcionalidades
- Transformadores
- Safetensors
- roberta
- Clasificación de texto
- Generado desde Entrenador
- Similitud de oraciones
- Modelo base: microsoft/codebert-base
- Modelo afinado: microsoft/codebert-base
- Compatible con AutoTrain
- Inferencia de incrustaciones de texto
- Puntos finales de inferencia
- Licencia: mit
- Región: US
Casos de uso
- Detección de Clones de Código
- Similitud entre oraciones
- Clasificación de Texto
- Incrustaciones de Texto