quicktensor/dexml_eurlex-4k

quicktensor
Similitud de oraciones

Modelos encoder de Distilbert entrenados en un conjunto de datos de etiquetado de documentos de derecho europeo (EURLex-4K) utilizando el método DEXML (Dual Encoder for eXtreme Multi-Label classification, ICLR'24).

Como usar

Uso de Inferencia (Transformadores de Oraciones)

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer('quicktensor/dexml_eurlex-4k')
embeddings = model.encode(sentences)
print(embeddings)

Uso (Transformadores de HuggingFace)

from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

pooler = lambda x: F.normalize(x[:, 0, :], dim=-1) # Choose CLS token and normalize

sentences = ["This is an example sentence", "Each sentence is converted"]
tokenizer = AutoTokenizer.from_pretrained('quicktensor/dexml_eurlex-4k')
model = AutoModel.from_pretrained('quicktensor/dexml_eurlex-4k')

encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
with torch.no_grad():
    embeddings = pooler(model(**encoded_input))

print(embeddings)

Funcionalidades

Transformador de oraciones
Transformadores
Safetensors
Extracción de características
Inferencia de incrustaciones de texto
Puntos de inferencia

Casos de uso

Etiquetado de documentos de derecho europeo
Incrustaciones de texto
Clasificación extrema de múltiples etiquetas