whitemouse84/rubert-tiny2-distilled-from-LaBSE-en-ru

whitemouse84

Similitud de oraciones

Este es un modelo de Sentence Transformers afinado a partir de cointegrated/rubert-tiny2. Mapea oraciones y párrafos a un espacio denso de vectores de 312 dimensiones y se puede usar para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de textos, agrupamiento y más.

Como usar

Primero instala la biblioteca de Sentence Transformers:
pip install -U sentence-transformers

Luego puedes cargar este modelo y ejecutar la inferencia.
from sentence_transformers import SentenceTransformer
# Descargar desde el Hub de 🤗
model = SentenceTransformer('whitemouse84/rubert-tiny2-distilled-from-LaBSE-en-ru')
# Ejecutar inferencia
sentences = [
    'Nadie sabía adónde fueron.',
    'El régimen caótico contrasta marcadamente con el régimen ordenado.',
    'Esto se aplica tanto a las relaciones C-R definidas por una sola función C-R como a las definidas por un agrupamiento de múltiples funciones C-R.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 312]

# Obtener los puntajes de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Resultados de evaluación:
Métricas de similitud semántica
Dataset: sts-dev
Evaluado con EmbeddingSimilarityEvaluator

Métrica	Valor
pearson_cosine	0.5368
spearman_cosine	0.6429
pearson_manhattan	0.5621
spearman_manhattan	0.6441
pearson_euclidean	0.5625
spearman_euclidean	0.6429
pearson_dot	0.5368
spearman_dot	0.6429
pearson_max	0.5625
spearman_max	0.6441

Destilación de conocimiento
Evaluado con MSEEvaluator

Métrica	Valor
negative_mse	-0.0415

Similitud semántica
Dataset: sts-test
Evaluado con EmbeddingSimilarityEvaluator

Métrica	Valor
pearson_cosine	0.5074
spearman_cosine	0.5974
pearson_manhattan	0.5641
spearman_manhattan	0.6143
pearson_euclidean	0.5514
spearman_euclidean	0.5974
pearson_dot	0.5074
spearman_dot	0.5974
pearson_max	0.5641
spearman_max	0.6143

Funcionalidades

Modelo: Transformer de oraciones
Modelo base: cointegrated/rubert-tiny2
Longitud máxima de secuencia: 2048 tokens
Dimensionalidad de salida: 312 tokens
Función de similitud: Similitud de coseno

Casos de uso

Similitud textual semántica
Búsqueda semántica
Minería de paráfrasis
Clasificación de textos
Agrupamiento