daxa-ai/pebblo-classifier

daxa-ai
Clasificación de texto

El clasificador Pebblo es un sistema de aprendizaje automático especializado en la clasificación de textos. Desarrollado por DAXA.AI, este modelo es experto en categorizar varios documentos de acuerdos dentro de estructuras organizacionales, entrenado en 21 etiquetas distintas. Es un modelo basado en BERT, ajustado a partir de distilbert-base-uncased, destinado a aplicaciones RAG (Retrieve-And-Generate). Clasifica textos en categorías como 'ACUERDO_DE_REUNIÓN_DE_JUNTA', 'ACUERDO_DE_CONSULTORÍA', y otros, simplificando los procesos de clasificación de documentos.

Como usar

# Importar las bibliotecas necesarias
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import joblib
from huggingface_hub import hf_hub_url, cached_download

# Cargar el tokenizador y el modelo
tokenizer = AutoTokenizer.from_pretrained("daxa-ai/pebblo-classifier")
model = AutoModelForSequenceClassification.from_pretrained("daxa-ai/pebblo-classifier")

# Texto de ejemplo
text = "Por favor, ingrese su texto aquí."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

# Aplicar softmax a los logits
probabilities = torch.nn.functional.softmax(output.logits, dim=-1)

# Obtener la etiqueta predicha
predicted_label = torch.argmax(probabilities, dim=-1)

# URL del repositorio de modelo en Hugging Face
REPO_NAME = "daxa-ai/pebblo-classifier"

# Ruta al archivo de codificador de etiquetas en el repositorio
LABEL_ENCODER_FILE = "label_encoder.joblib"

# Construir la URL al archivo de codificador de etiquetas
url = hf_hub_url(REPO_NAME, filename=LABEL_ENCODER_FILE)

# Descargar y almacenar en caché el archivo de codificador de etiquetas
filename = cached_download(url)

# Cargar el codificador de etiquetas
label_encoder = joblib.load(filename)

# Decodificar la etiqueta predicha
decoded_label = label_encoder.inverse_transform(predicted_label.numpy())

print(decoded_label)

Funcionalidades

Modelo basado en BERT
Ajustado a partir de distilbert-base-uncased
Clasificación de textos en 21 categorías distintas
Entrenado con 141,055 entradas
Evaluación realizada con 86,281 entradas
Precisión, recall y f1-score detallados para todas las etiquetas
Licencia MIT

Casos de uso

Clasificación de documentos de reunión de junta
Clasificación de acuerdos de consultoría
Clasificación de listas de clientes
Clasificación de acuerdos de empleo
Clasificación de acuerdos de licencia empresarial
Procesamiento y categorización de documentos financieros
Identificación y clasificación de contenido sexual y de incidentes sexuales
Revisión de acuerdos de fusión y adquisiciones