nvidia/Aegis-AI-Content-Safety-LlamaGuard-Defensive-1.0

nvidia
Clasificación de texto

Aegis-AI-Content-Safety-LlamaGuard-LLM-Defensive-1.0 es un modelo de seguridad de contenido LLM. Es una versión de Llama Guard afinada por instrucciones basada en Llama2-7B entrenada en el Aegis Content Safety Dataset de Nvidia, que cubre la amplia taxonomía de 13 categorías críticas de riesgos de seguridad de Nvidia.

Como usar

from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel

# Cargar el modelo
model_id = 'ruta/del/modelo'
path_to_adapter_weights = 'ruta/a/los/pesos'
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# Usar la biblioteca PEFT de transformers para cargar los pesos del adaptador
g_defensive_model = PeftModel.from_pretrained(model, path_to_adapter_weights)

# Formatear el prompt usando las funciones a continuación
unsafe_categories = '''
... (todas las categorías inseguras como O1, O2, etc.) ...
'''

def moderation_prompt_for_chat(chat):
  role = 'Usuario'
  prompt = f'''[INST] Tarea: Verificar si hay contenido inseguro en los mensajes del '{role}' en las conversaciones según nuestra política de seguridad con las categorías a continuación.

{unsafe_categories}
  '''
  m = chat['user_input']
  prompt += f'{role}: {m}\n\n'
  prompt += f'''\n\nProporcione su evaluación de seguridad para {role} en la conversación anterior:
  - La primera línea debe leer 'seguro' o 'inseguro'.
  - Si es inseguro, una segunda línea debe incluir una lista separada por comas de las categorías violadas. [/INST]'''
  return prompt

Funcionalidades

Instrucciones del sistema que incluyen la taxonomía de seguridad y una política de seguridad con inclusiones y exclusiones.
El sistema de indicaciones instruye al LLM a moderar el prompt del usuario, el diálogo parcial o el diálogo completo.
La respuesta del LLM es una cadena que puede ser segura o insegura.
Categorías y políticas de riesgos de seguridad novedosas pueden ser proporcionadas en la instrucción para que el modelo las categorice usando la nueva taxonomía y política.
Contiene 13 categorías de riesgos críticamente inseguros, una categoría segura y una categoría de 'necesita precaución'.
Dataset internamente anotado llamado Aegis-AI-Content-Safety-Dataset-1.0 con aproximadamente 11,000 prompts y respuestas usadas para afinar el modelo con instrucciones.
El modelo funciona como un clasificador en este contexto.

Casos de uso

Salvaguardar o evaluar el contenido generado por un LLM de propósito general.
Clasificar la toxicidad de cualquier contenido textual, como datos de preentrenamiento no exclusivamente limitados a interacciones entre humanos y LLM.
Afinar más el modelo con políticas de seguridad personalizadas y taxonomías.
Cargar diferentes pesos de adaptadores para imponer diferentes niveles de tolerancia a la seguridad.