SuperAnnotate/roberta-large-llm-content-detector
SuperAnnotate
Clasificación de texto
El modelo está diseñado para detectar texto generado/sintético. Actualmente, dicha funcionalidad es crítica para determinar el autor del texto. Es esencial para tus datos de entrenamiento, detectar fraudes y trampas en áreas científicas y educativas.
Como usar
Requerimientos previos: Instalar generated_text_detector. Ejecutar el siguiente comando:
pip install git+https://github.com/superannotateai/[email protected]
from generated_text_detector.utils.model.roberta_classifier import RobertaClassifier
from transformers import AutoTokenizer
import torch.nn.functional as F
model = RobertaClassifier.from_pretrained("SuperAnnotate/roberta-large-llm-content-detector")
tokenizer = AutoTokenizer.from_pretrained("SuperAnnotate/roberta-large-llm-content-detector")
text_example = "Es común que las personas desarrollen alergias o intolerancias a ciertos alimentos a medida que envejecen. Es posible que siempre hayas tenido una sensibilidad a la lactosa (el azúcar que se encuentra en la leche y otros productos lácteos), pero que solo recientemente se haya convertido en un problema para ti. Esto puede suceder porque nuestros cuerpos pueden cambiar con el tiempo y ser más o menos capaces de tolerar ciertas cosas. También es posible que hayas desarrollado una alergia o intolerancia a otra cosa que esté causando tus síntomas, como un aditivo alimentario o conservante. En cualquier caso, es importante hablar con un médico si experimentas nuevos síntomas de alergia o intolerancia, para que puedan ayudar a determinar la causa y recomendar un tratamiento."
tokens = tokenizer.encode_plus(
text_example,
add_special_tokens=True,
max_length=512,
padding='longest',
truncation=True,
return_token_type_ids=True,
return_tensors="pt")
_, logits = model(**tokens)
proba = F.sigmoid(logits).squeeze(1).item()
print(proba)
Funcionalidades
- Detecta texto generado/sintético
- Clasificación binaria de secuencias
- Basado en RoBERTa pre-entrenado
- Integración de suavizado de etiquetas en la función de pérdida
Casos de uso
- Detección de fraude y trampas en áreas educativas y científicas
- Mejora de la calidad de los datos de entrenamiento al eliminar texto generado automáticamente
- Identificación del autor del texto