Voicelab/sbert-base-cased-pl
Voicelab
Similitud de oraciones
SentenceBERT es una modificación de la red BERT preentrenada que utiliza estructuras de red siamésicas y de triplete para derivar embeddings semánticamente significativos de frases que pueden compararse usando la similitud del coseno. El entrenamiento se basó en el artículo original 'Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks' con una ligera modificación en cómo se utilizaban los datos de entrenamiento. El objetivo del modelo es generar diferentes embeddings basados en la similitud semántica y temática del texto dado. El modelo base entrenado es un HerBERT polaco. HerBERT es un modelo de lenguaje basado en BERT.
Como usar
from transformers import AutoTokenizer, AutoModel
from sklearn.metrics import pairwise
sbert = AutoModel.from_pretrained("Voicelab/sbert-base-cased-pl")
tokenizer = AutoTokenizer.from_pretrained("Voicelab/sbert-base-cased-pl")
s0 = "Uczenie maszynowe jest konsekwencją rozwoju idei sztucznej inteligencji i metod jej wdrażania praktycznego."
s1 = "Głębokie uczenie maszynowe jest efektem wdrażania praktycznego metod sztucznej inteligencji oraz jej rozwoju."
s2 = "Kasparow zarzucił firmie IBM oszustwo, kiedy odmówiła mu dostępu do historii wcześniejszych gier Deep Blue."
tokens = tokenizer([s0, s1, s2], padding=True, truncation=True, return_tensors='pt')
x = sbert(tokens["input_ids"], tokens["attention_mask"]).pooler_output
# similitud entre las frases s0 y s1
print(pairwise.cosine_similarity(x[0], x[1])) # Resultado: 0.7952354
# similitud entre las frases s0 y s2
print(pairwise.cosine_similarity(x[0], x[2])) # Resultado: 0.42359722
Funcionalidades
- transformador de frases
- extracción de características
- Compatibilidad con AutoTrain
- Inferencia de embeddings de texto
- Compatibilidad con endpoints de inferencia
Casos de uso
- Análisis de similitud semántica entre textos.
- Generación de embeddings de texto para tareas de procesamiento del lenguaje natural.
- Aplicaciones en recuperación de información y búsqueda semántica.