jina-semantic-bmf-matryoshka

akot
Similitud de oraciones

Este es un modelo Sentence Transformers afinado a partir de jinaai/jina-embeddings-v2-base-de. Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede ser utilizado para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de textos, agrupamiento, y más.

Como usar

Primero, instala la biblioteca de Sentence Transformers:
pip install -U sentence-transformers

Luego, puedes cargar este modelo y ejecutar inferencia.
from sentence_transformers import SentenceTransformer

# Descargar desde el 🤗 Hub
model = SentenceTransformer("akot/jina-semantic-bmf-matryoshka")
# Ejecutar inferencia
sentences = [
   '67 Abwandlung des Beispiels 1 in Rn. 66: A erhält zudem zwei Kinderzulagen für seine in den Jahren 2004 und 2005 geborenen Kinder. Beitragspflichtige Einnahmen 53.000 € 4 % 2.120 € höchstens 2.100 € anzusetzen 2.100 € abzüglich Zulage 175 € Mindesteigenbeitrag (§ 86 Abs. 1 Satz 2 EStG) 1.925 € Sockelbetrag (§ 86 Abs. 1 Satz 4 EStG) 60 € maßgebend (§ 86 Abs. 1 Satz 5 EStG) 1.925 € Die von A geleisteten Beiträge übersteigen den Mindesteigenbeitrag. Die Zulage wird nicht gekürzt.',
   'Wird die Zulage für A gekürzt, wenn die Beiträge den Mindesteigenbeitrag übersteigen?',
   'Wie erfolgt die Besteuerung bei der ausgleichsberechtigten Person nach einer externen Teilung?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Obtener los puntajes de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Funcionalidades

Transformador con longitud máxima de secuencia de 1024 tokens
Salida con dimensionalidad de 768 tokens
Función de similitud: Similitud del Coseno

Casos de uso

Similitud textual semántica
Búsqueda semántica
Minería de paráfrasis
Clasificación de textos
Agrupamiento