akot/bge-semantic-bmf-matryoshka

akot
Similitud de oraciones

Este es un modelo basado en sentence-transformers afinado desde BAAI/bge-m3. Mapea oraciones y párrafos a un espacio vectorial denso de 1024 dimensiones y puede ser utilizado para similitud textual semántica, búsqueda semántica, minería de párrafos, clasificación de texto, agrupamiento, y más.

Como usar

Uso Directo (Sentence Transformers)

pip install -U sentence-transformers

from sentence_transformers import SentenceTransformer

# Descargar desde el Hub de 🤗
model = SentenceTransformer('akot/bge-semantic-bmf-matryoshka')
# Ejecución de inferencias
sentences = [
  '67 Abwandlung des Beispiels 1 in Rn. 66: A erhält zudem zwei Kinderzulagen für seine in den Jahren 2004 und 2005 geborenen Kinder. Beitragspflichtige Einnahmen 53.000 € 4 % 2.120 € höchstens 2.100 € anzusetzen 2.100 € abzüglich Zulage 175 € Mindesteigenbeitrag (§ 86 Abs. 1 Satz 2 EStG) 1.925 € Sockelbetrag (§ 86 Abs. 1 Satz 4 EStG) 60 € maßgebend (§ 86 Abs. 1 Satz 5 EStG) 1.925 € Die von A geleisteten Beiträge übersteigen den Mindesteigenbeitrag. Die Zulage wird nicht gekürzt.',
  'Wird die Zulage für A gekürzt, wenn die Beiträge den Mindesteigenbeitrag übersteigen?',
  'Wie erfolgt die Besteuerung bei der ausgleichsberechtigten Person nach einer externen Teilung?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Obtener las puntuaciones de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Funcionalidades

Modelo Sentence Transformer basado en BAAI/bge-m3
Longitud máxima de secuencia: 1024 tokens
Dimensionalidad de salida: 1024 tokens
Función de similitud: Similitud coseno

Casos de uso

Similitud textual semántica
Búsqueda semántica
Minería de paráfrasis
Clasificación de texto
Agrupamiento