whitemouse84/rubert-tiny2-distilled-from-LaBSE-en-ru
whitemouse84
Similitud de oraciones
Este es un modelo de Sentence Transformers afinado a partir de cointegrated/rubert-tiny2. Mapea oraciones y párrafos a un espacio denso de vectores de 312 dimensiones y se puede usar para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de textos, agrupamiento y más.
Como usar
Primero instala la biblioteca de Sentence Transformers:
pip install -U sentence-transformers
Luego puedes cargar este modelo y ejecutar la inferencia.
from sentence_transformers import SentenceTransformer
# Descargar desde el Hub de 🤗
model = SentenceTransformer('whitemouse84/rubert-tiny2-distilled-from-LaBSE-en-ru')
# Ejecutar inferencia
sentences = [
'Nadie sabía adónde fueron.',
'El régimen caótico contrasta marcadamente con el régimen ordenado.',
'Esto se aplica tanto a las relaciones C-R definidas por una sola función C-R como a las definidas por un agrupamiento de múltiples funciones C-R.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 312]
# Obtener los puntajes de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Resultados de evaluación:
Métricas de similitud semántica
Dataset: sts-dev
Evaluado con EmbeddingSimilarityEvaluator
Métrica Valor
pearson_cosine 0.5368
spearman_cosine 0.6429
pearson_manhattan 0.5621
spearman_manhattan 0.6441
pearson_euclidean 0.5625
spearman_euclidean 0.6429
pearson_dot 0.5368
spearman_dot 0.6429
pearson_max 0.5625
spearman_max 0.6441
Destilación de conocimiento
Evaluado con MSEEvaluator
Métrica Valor
negative_mse -0.0415
Similitud semántica
Dataset: sts-test
Evaluado con EmbeddingSimilarityEvaluator
Métrica Valor
pearson_cosine 0.5074
spearman_cosine 0.5974
pearson_manhattan 0.5641
spearman_manhattan 0.6143
pearson_euclidean 0.5514
spearman_euclidean 0.5974
pearson_dot 0.5074
spearman_dot 0.5974
pearson_max 0.5641
spearman_max 0.6143
Funcionalidades
- Modelo: Transformer de oraciones
- Modelo base: cointegrated/rubert-tiny2
- Longitud máxima de secuencia: 2048 tokens
- Dimensionalidad de salida: 312 tokens
- Función de similitud: Similitud de coseno
Casos de uso
- Similitud textual semántica
- Búsqueda semántica
- Minería de paráfrasis
- Clasificación de textos
- Agrupamiento