quicktensor/dexml_eurlex-4k
quicktensor
Similitud de oraciones
Modelos encoder de Distilbert entrenados en un conjunto de datos de etiquetado de documentos de derecho europeo (EURLex-4K) utilizando el método DEXML (Dual Encoder for eXtreme Multi-Label classification, ICLR'24).
Como usar
Uso de Inferencia (Transformadores de Oraciones)
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer('quicktensor/dexml_eurlex-4k')
embeddings = model.encode(sentences)
print(embeddings)
Uso (Transformadores de HuggingFace)
from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F
pooler = lambda x: F.normalize(x[:, 0, :], dim=-1) # Choose CLS token and normalize
sentences = ["This is an example sentence", "Each sentence is converted"]
tokenizer = AutoTokenizer.from_pretrained('quicktensor/dexml_eurlex-4k')
model = AutoModel.from_pretrained('quicktensor/dexml_eurlex-4k')
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
with torch.no_grad():
embeddings = pooler(model(**encoded_input))
print(embeddings)
Funcionalidades
- Transformador de oraciones
- Transformadores
- Safetensors
- Extracción de características
- Inferencia de incrustaciones de texto
- Puntos de inferencia
Casos de uso
- Etiquetado de documentos de derecho europeo
- Incrustaciones de texto
- Clasificación extrema de múltiples etiquetas