roberta-academic-detector

andreas122001

Clasificación de texto

Detección de texto generado por máquinas mediante el ajuste fino de modelos de lenguaje. Este proyecto está relacionado con una tesis de licenciatura titulada 'Turning Poachers into Gamekeepers: Detecting Machine-Generated Text in Academia using Large Language Models' (ver aquí) escrita por Nicolai Thorer Sivesind y Andreas Bentzen Winje en el Departamento de Ciencias de la Computación de la Universidad Noruega de Ciencia y Tecnología. Contiene modelos de clasificación de texto entrenados para distinguir el texto escrito por humanos del texto generado por modelos de lenguaje como ChatGPT y GPT-3. Los mejores modelos lograron una precisión del 100% en artículos de Wikipedia generados por GPT-3 (4500 muestras) y una precisión del 98,4% en resúmenes de investigaciones generados por ChatGPT (3000 muestras).

Como usar

Para usar este modelo, puedes emplear la siguiente configuración de hiperparámetros para el entrenamiento de los modelos:
{
  "num_train_epochs": 1,
  "adam_beta1": 0.9,
  "adam_beta2": 0.999,
  "batch_size": 8,
  "adam_epsilon": 1e-08,
  "optim": "adamw_torch",
  "learning_rate": 5e-05,
  "lr_scheduler_type": "linear",
  "seed": 42
}

Puedes encontrar ejemplos de texto clasificados por el modelo, como:

Ejemplo real de Wikipedia: En el folclore finlandés, todos los lugares y cosas, así como las personas, tienen un haltija (un genio o espíritu guardián) propio. Un haltija se llama etiäinen, una imagen, doppelgänger o simplemente una impresión que precede a una persona, haciendo cosas que la persona en cuestión hace más tarde.
Ejemplo generado por Wikipedia: En el folclore finlandés, todos los lugares y cosas, animados o inanimados, tienen un espíritu o 'etiäinen' que vive allí. Etiäinen puede manifestarse de muchas formas, pero generalmente se describe como una mujer mayor amable con cabello blanco.
Ejemplo de ChatGPT: Este artículo presenta un nuevo marco para descomposiciones gráficas que certifiquen la esparcidad, herramientas importantes en diversas áreas de la ciencia informática.
Ejemplo de artículo de GPT-3: Trabajos recientes han demostrado mejoras sustanciales en muchas tareas y benchmarks de NLP al preentrenar en un gran corpus de textos.

Funcionalidades

Clasificación de textos
Transformers
PyTorch
Safetensors
Compatibilidad con AutoTrain
Compatibilidad con Endpoints
Región: US

Casos de uso

Detección de texto generado por máquinas en artículos académicos.
Clasificación de textos en varios dominios como Wikipedia y resúmenes de investigaciones.
Análisis de la precisión de modelos de lenguaje amplio en diferentes tipos de texto.