Jailbreak Classifier

jackhhao

Clasificación de texto

Clasifica las solicitudes como jailbreaks o benignas. Este es un punto de control ajustado de bert-base-uncased en el conjunto de datos jailbreak-classification.

Como usar

# Ejemplo de uso
from transformers import AutoModelForSequenceClassification, AutoTokenizer

model_name = 'jackhhao/jailbreak-classifier'
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

inputs = tokenizer('I like you', return_tensors='pt')
outputs = model(**inputs)

Funcionalidades

Clasificación de textos
Utiliza Transformers
Basado en PyTorch
Moderación de seguridad
Prevención de inyecciones de comandos

Casos de uso

Detección de conflictos de seguridad en solicitudes
Moderación de contenido de texto
Prevención de inyección de comandos en aplicaciones de chat