distilroberta-base-rejection-v1
protectai
Clasificación de texto
Este modelo es una versión afinada de 'distilroberta-base' en múltiples conjuntos de datos combinados de rechazos de diferentes LLMs y respuestas normales de conjuntos de datos de RLHF. Su objetivo es identificar rechazos en LLMs cuando el prompt no pasa la moderación de contenido, clasificando las entradas en dos categorías: 0 para salidas normales y 1 para rechazos detectados. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 0.0544, Precisión: 0.9887, Recall: 0.9810, Precisión: 0.9279, F1: 0.9537.
Como usar
Transformers
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
import torch
tokenizer = AutoTokenizer.from_pretrained("ProtectAI/distilroberta-base-rejection-v1")
model = AutoModelForSequenceClassification.from_pretrained("ProtectAI/distilroberta-base-rejection-v1")
classifier = pipeline(
"text-classification",
model=model,
tokenizer=tokenizer,
truncation=True,
max_length=512,
device=torch.device("cuda" if torch.cuda.is_available() else "cpu"),
)
print(classifier("Lo siento, pero no puedo ayudar con eso."))
Optimum con ONNX
from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer, pipeline
tokenizer = AutoTokenizer.from_pretrained("ProtectAI/distilroberta-base-rejection-v1", subfolder="onnx")
model = ORTModelForSequenceClassification.from_pretrained("ProtectAI/distilroberta-base-rejection-v1", export=False, subfolder="onnx")
classifier = pipeline(
task="text-classification",
model=model,
tokenizer=tokenizer,
truncation=True,
max_length=512,
)
print(classifier("Lo siento, pero no puedo ayudar con eso."))
Funcionalidades
- Clasificación de texto
- Transformers
- ONNX
- Safetensors
- Basado en distilroberta-base
- Compatible con AutoTrain
- Compatible con Endpoints de Inferencia
- Emisiones de CO2
Casos de uso
- Detección de rechazos en la salida de LLMs
- Moderación de contenido
- Clasificación de respuestas en outputs normales y rechazos
- Uso en sistemas de guardia de LLM (NoRefusal Scanner)