roberta-academic-detector
Detección de texto generado por máquinas mediante el ajuste fino de modelos de lenguaje. Este proyecto está relacionado con una tesis de licenciatura titulada 'Turning Poachers into Gamekeepers: Detecting Machine-Generated Text in Academia using Large Language Models' (ver aquí) escrita por Nicolai Thorer Sivesind y Andreas Bentzen Winje en el Departamento de Ciencias de la Computación de la Universidad Noruega de Ciencia y Tecnología. Contiene modelos de clasificación de texto entrenados para distinguir el texto escrito por humanos del texto generado por modelos de lenguaje como ChatGPT y GPT-3. Los mejores modelos lograron una precisión del 100% en artículos de Wikipedia generados por GPT-3 (4500 muestras) y una precisión del 98,4% en resúmenes de investigaciones generados por ChatGPT (3000 muestras).
Como usar
Para usar este modelo, puedes emplear la siguiente configuración de hiperparámetros para el entrenamiento de los modelos:
{
"num_train_epochs": 1,
"adam_beta1": 0.9,
"adam_beta2": 0.999,
"batch_size": 8,
"adam_epsilon": 1e-08,
"optim": "adamw_torch",
"learning_rate": 5e-05,
"lr_scheduler_type": "linear",
"seed": 42
}
Puedes encontrar ejemplos de texto clasificados por el modelo, como:
- Ejemplo real de Wikipedia: En el folclore finlandés, todos los lugares y cosas, así como las personas, tienen un haltija (un genio o espíritu guardián) propio. Un haltija se llama etiäinen, una imagen, doppelgänger o simplemente una impresión que precede a una persona, haciendo cosas que la persona en cuestión hace más tarde.
- Ejemplo generado por Wikipedia: En el folclore finlandés, todos los lugares y cosas, animados o inanimados, tienen un espíritu o 'etiäinen' que vive allí. Etiäinen puede manifestarse de muchas formas, pero generalmente se describe como una mujer mayor amable con cabello blanco.
- Ejemplo de ChatGPT: Este artículo presenta un nuevo marco para descomposiciones gráficas que certifiquen la esparcidad, herramientas importantes en diversas áreas de la ciencia informática.
- Ejemplo de artículo de GPT-3: Trabajos recientes han demostrado mejoras sustanciales en muchas tareas y benchmarks de NLP al preentrenar en un gran corpus de textos.
Funcionalidades
- Clasificación de textos
- Transformers
- PyTorch
- Safetensors
- Compatibilidad con AutoTrain
- Compatibilidad con Endpoints
- Región: US
Casos de uso
- Detección de texto generado por máquinas en artículos académicos.
- Clasificación de textos en varios dominios como Wikipedia y resúmenes de investigaciones.
- Análisis de la precisión de modelos de lenguaje amplio en diferentes tipos de texto.