SuperAnnotate/roberta-large-llm-content-detector

SuperAnnotate

Clasificación de texto

El modelo está diseñado para detectar texto generado/sintético. Actualmente, dicha funcionalidad es crítica para determinar el autor del texto. Es esencial para tus datos de entrenamiento, detectar fraudes y trampas en áreas científicas y educativas.

Como usar

Requerimientos previos: Instalar generated_text_detector. Ejecutar el siguiente comando:
pip install git+https://github.com/superannotateai/[email protected]

from generated_text_detector.utils.model.roberta_classifier import RobertaClassifier
from transformers import AutoTokenizer
import torch.nn.functional as F

model = RobertaClassifier.from_pretrained("SuperAnnotate/roberta-large-llm-content-detector")
tokenizer = AutoTokenizer.from_pretrained("SuperAnnotate/roberta-large-llm-content-detector")

text_example = "Es común que las personas desarrollen alergias o intolerancias a ciertos alimentos a medida que envejecen. Es posible que siempre hayas tenido una sensibilidad a la lactosa (el azúcar que se encuentra en la leche y otros productos lácteos), pero que solo recientemente se haya convertido en un problema para ti. Esto puede suceder porque nuestros cuerpos pueden cambiar con el tiempo y ser más o menos capaces de tolerar ciertas cosas. También es posible que hayas desarrollado una alergia o intolerancia a otra cosa que esté causando tus síntomas, como un aditivo alimentario o conservante. En cualquier caso, es importante hablar con un médico si experimentas nuevos síntomas de alergia o intolerancia, para que puedan ayudar a determinar la causa y recomendar un tratamiento."

tokens = tokenizer.encode_plus(
text_example,
add_special_tokens=True,
max_length=512,
padding='longest',
truncation=True,
return_token_type_ids=True,
return_tensors="pt")

_, logits = model(**tokens)

proba = F.sigmoid(logits).squeeze(1).item()

print(proba)

Funcionalidades

Detecta texto generado/sintético
Clasificación binaria de secuencias
Basado en RoBERTa pre-entrenado
Integración de suavizado de etiquetas en la función de pérdida

Casos de uso

Detección de fraude y trampas en áreas educativas y científicas
Mejora de la calidad de los datos de entrenamiento al eliminar texto generado automáticamente
Identificación del autor del texto