protectai/codebert-base-Malicious_URLs-onnx

protectai

Clasificación de texto

Esta versión ONNX de DunnBC22/codebert-base-Malicious_URLs es una conversión del modelo original para identificar URLs que pueden representar amenazas de seguridad. El modelo se basa en la arquitectura CodeBERT y fue convertido a ONNX usando la biblioteca 🤗 Optimum.

Como usar

Para cargar el modelo se requiere tener instalada la biblioteca 🤗 Optimum.
from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer, pipeline

tokenizer = AutoTokenizer.from_pretrained("laiyer/codebert-base-Malicious_URLs-onnx")
model = ORTModelForSequenceClassification.from_pretrained("laiyer/codebert-base-Malicious_URLs-onnx")
classifier = pipeline(
    task="text-classification",
    model=model,
    tokenizer=tokenizer,
    top_k=None,
)

classifier_output = classifier("https://google.com")
print(classifier_output)

Funcionalidades

Arquitectura Base: CodeBERT-base, un modelo robusto para lenguajes de programación y naturales.
Dataset: https://www.kaggle.com/datasets/sid321axn/malicious-urls-dataset.
Modificaciones: Detalles de cualquier modificación o ajuste fino realizado para adaptar el modelo a la detección de URLs maliciosas.

Casos de uso

Escáner de URLs maliciosas
Detección de amenazas de seguridad en URLs