nothingiisreal/open-gpt-3.5-detector

nothingiisreal

Clasificación de texto

Hemos entrenado DistilBERT en este conjunto de datos [https://huggingface.co/datasets/nothingiisreal/Human_Stories]. Es algo aceptable para el muestreo, pero necesita mejoras y exposición a más datos sintéticos y tipos de errores que cometen los LLMs. En general, estoy extremadamente impresionado con lo bien que funciona este modelo de 68 millones de parámetros, y extremadamente decepcionado con cómo cada AI se está detectando solo después de entrenar BERT en filas de datos de GPT3.5. La etiqueta de clase 0 significa humano, 1 significa AI. Probamos estos modelos, todos los cuales funcionaron: GPT3.5, 4, 4o Claude Sonnet, Opus Wizard LM 2 Gemini 1.5 Pro. Es realmente evidente cómo cada compañía de AI está utilizando la misma marca de agua, ya sea conscientemente o no (a través de la 'incest' de LLMs).

Como usar

Este modelo aún no tiene suficiente actividad para ser desplegado en la API de Inferencia (sin servidor). Aumente su visibilidad social y vuelva a comprobar más tarde, o despliegue a Puntos de Inferencia (dedicados).

Funcionalidades

Clasificación de texto
Transformadores
Safetensors
Tamaño del modelo: 67M parámetros
Tipo de tensor: F32

Casos de uso

Detección de textos generados por AI
Clasificación de textos en humanos vs. AI
Mejora de los modelos LLM con más datos sintéticos