nothingiisreal/open-gpt-3.5-detector
Hemos entrenado DistilBERT en este conjunto de datos [https://huggingface.co/datasets/nothingiisreal/Human_Stories]. Es algo aceptable para el muestreo, pero necesita mejoras y exposición a más datos sintéticos y tipos de errores que cometen los LLMs. En general, estoy extremadamente impresionado con lo bien que funciona este modelo de 68 millones de parámetros, y extremadamente decepcionado con cómo cada AI se está detectando solo después de entrenar BERT en filas de datos de GPT3.5. La etiqueta de clase 0 significa humano, 1 significa AI. Probamos estos modelos, todos los cuales funcionaron: GPT3.5, 4, 4o Claude Sonnet, Opus Wizard LM 2 Gemini 1.5 Pro. Es realmente evidente cómo cada compañía de AI está utilizando la misma marca de agua, ya sea conscientemente o no (a través de la 'incest' de LLMs).
Como usar
Este modelo aún no tiene suficiente actividad para ser desplegado en la API de Inferencia (sin servidor). Aumente su visibilidad social y vuelva a comprobar más tarde, o despliegue a Puntos de Inferencia (dedicados).
Funcionalidades
- Clasificación de texto
- Transformadores
- Safetensors
- Tamaño del modelo: 67M parámetros
- Tipo de tensor: F32
Casos de uso
- Detección de textos generados por AI
- Clasificación de textos en humanos vs. AI
- Mejora de los modelos LLM con más datos sintéticos