RADAR-Vicuna-7B

TrustSafeAI

Clasificación de texto

El modelo RADAR-Vicuna-7B es un detector de texto generado por IA entrenado mediante el aprendizaje adversario entre el detector y un parafraseador en un corpus de texto humano (OpenWebText) y un corpus de texto de IA generado basado en OpenWebText. Este modelo, desarrollado por TrustSafeAI, es de tipo encoder basado en la arquitectura transformer (RoBERTa). Tiene licencia no comercial (heredada de Vicuna-7B-v1.1) y está entrenado a partir del modelo RoBERTa.

Como usar

Por favor, consulte las siguientes pautas para ver cómo ejecutar localmente el modelo descargado o usar nuestro servicio API alojado en Huggingface Space.
Google Colab Demo: [Enlace de Google Colab](https://colab.research.google.com/drive/1r7mLEfVynChUUgIfw1r4WZyh9b0QBQdo?usp=sharing)
Huggingface API Documentation: [Documentación de la API de Huggingface](https://trustsafeai-radar-ai-text-detector.hf.space/?view=api)

Pipeline de Entrenamiento
Proponemos el aprendizaje adversario entre un parafraseador y nuestro detector. El objetivo del parafraseador es hacer que el texto generado por IA se parezca más al texto escrito por humanos y el objetivo del detector es mejorar su capacidad para identificar el texto de IA.
(Step 1) Preparación de los datos de entrenamiento: Antes de entrenar, usamos Vicuna-7B para generar texto de IA realizando la finalización de texto basada en el prefijo del texto humano en OpenWebText.
(Step 2) Actualizar el parafraseador: Durante el entrenamiento, el parafraseador parafraseará el texto de IA generado en el Paso 1. Luego, recogerá la recompensa devuelta por el detector para actualizar el parafraseador usando la pérdida de Optimización Proximal por Proxy.
(Step 3) Actualizar el detector: El detector se optimiza utilizando la pérdida logística en el texto humano, texto de IA y texto de IA parafraseado.

Funcionalidades

Clasificación de texto
Transformers
Compatibilidad con PyTorch
Compatibilidad con AutoTrain
Compatibilidad con Endpoints de Inferencia

Casos de uso

Asistencia en la detección de texto generado por modelos de lenguaje grande
Uso no comercial debido a las restricciones de la licencia