Smaller-LaBSE
setu4993
Similitud de oraciones
El codificador de oraciones en lenguaje agnóstico BERT (LaBSE) más pequeño es un modelo basado en BERT destilado del modelo original LaBSE a 15 idiomas (del original de 109 idiomas) utilizando las técnicas descritas en el artículo 'Load What You Need: Smaller Versions of Multilingual BERT' de Ukjae Jeong.
Como usar
Uso del modelo:
import torch
from transformers import BertModel, BertTokenizerFast
tokenizer = BertTokenizerFast.from_pretrained("setu4993/smaller-LaBSE")
model = BertModel.from_pretrained("setu4993/smaller-LaBSE")
model = model.eval()
english_sentences = [
"dog",
"Puppies are nice.",
"I enjoy taking long walks along the beach with my dog.",
]
english_inputs = tokenizer(english_sentences, return_tensors="pt", padding=True)
with torch.no_grad():
english_outputs = model(**english_inputs)
# Para obtener las incrustaciones de la oración, use la salida del pooler:
english_embeddings = english_outputs.pooler_output
Funcionalidades
- Codificación de oraciones en múltiples idiomas
- Modelo basado en BERT destilado
- Soporte para 15 idiomas
- Conversión de TensorFlow a PyTorch
Casos de uso
- Incrustaciones de texto y oraciones
- Evaluación de similitud entre oraciones