Voicelab/sbert-base-cased-pl

Voicelab
Similitud de oraciones

SentenceBERT es una modificación de la red BERT preentrenada que utiliza estructuras de red siamésicas y de triplete para derivar embeddings semánticamente significativos de frases que pueden compararse usando la similitud del coseno. El entrenamiento se basó en el artículo original 'Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks' con una ligera modificación en cómo se utilizaban los datos de entrenamiento. El objetivo del modelo es generar diferentes embeddings basados en la similitud semántica y temática del texto dado. El modelo base entrenado es un HerBERT polaco. HerBERT es un modelo de lenguaje basado en BERT.

Como usar

from transformers import AutoTokenizer, AutoModel
from sklearn.metrics import pairwise

sbert = AutoModel.from_pretrained("Voicelab/sbert-base-cased-pl")
tokenizer = AutoTokenizer.from_pretrained("Voicelab/sbert-base-cased-pl")

s0 = "Uczenie maszynowe jest konsekwencją rozwoju idei sztucznej inteligencji i metod jej wdrażania praktycznego."
s1 = "Głębokie uczenie maszynowe jest efektem wdrażania praktycznego metod sztucznej inteligencji oraz jej rozwoju."
s2 = "Kasparow zarzucił firmie IBM oszustwo, kiedy odmówiła mu dostępu do historii wcześniejszych gier Deep Blue."

tokens = tokenizer([s0, s1, s2], padding=True, truncation=True, return_tensors='pt')
x = sbert(tokens["input_ids"], tokens["attention_mask"]).pooler_output

# similitud entre las frases s0 y s1
print(pairwise.cosine_similarity(x[0], x[1])) # Resultado: 0.7952354

# similitud entre las frases s0 y s2
print(pairwise.cosine_similarity(x[0], x[2])) # Resultado: 0.42359722

Funcionalidades

transformador de frases
extracción de características
Compatibilidad con AutoTrain
Inferencia de embeddings de texto
Compatibilidad con endpoints de inferencia

Casos de uso

Análisis de similitud semántica entre textos.
Generación de embeddings de texto para tareas de procesamiento del lenguaje natural.
Aplicaciones en recuperación de información y búsqueda semántica.