Smaller-LaBSE

setu4993

Similitud de oraciones

El codificador de oraciones en lenguaje agnóstico BERT (LaBSE) más pequeño es un modelo basado en BERT destilado del modelo original LaBSE a 15 idiomas (del original de 109 idiomas) utilizando las técnicas descritas en el artículo 'Load What You Need: Smaller Versions of Multilingual BERT' de Ukjae Jeong.

Como usar

Uso del modelo:
import torch
from transformers import BertModel, BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained("setu4993/smaller-LaBSE")
model = BertModel.from_pretrained("setu4993/smaller-LaBSE")
model = model.eval()

english_sentences = [
"dog",
"Puppies are nice.",
"I enjoy taking long walks along the beach with my dog.",
]
english_inputs = tokenizer(english_sentences, return_tensors="pt", padding=True)

with torch.no_grad():
    english_outputs = model(**english_inputs)

# Para obtener las incrustaciones de la oración, use la salida del pooler:
english_embeddings = english_outputs.pooler_output

Funcionalidades

Codificación de oraciones en múltiples idiomas
Modelo basado en BERT destilado
Soporte para 15 idiomas
Conversión de TensorFlow a PyTorch

Casos de uso

Incrustaciones de texto y oraciones
Evaluación de similitud entre oraciones