akot/bge-semantic-bmf-matryoshka
akot
Similitud de oraciones
Este es un modelo basado en sentence-transformers afinado desde BAAI/bge-m3. Mapea oraciones y párrafos a un espacio vectorial denso de 1024 dimensiones y puede ser utilizado para similitud textual semántica, búsqueda semántica, minería de párrafos, clasificación de texto, agrupamiento, y más.
Como usar
Uso Directo (Sentence Transformers)
pip install -U sentence-transformers
from sentence_transformers import SentenceTransformer
# Descargar desde el Hub de 🤗
model = SentenceTransformer('akot/bge-semantic-bmf-matryoshka')
# Ejecución de inferencias
sentences = [
'67 Abwandlung des Beispiels 1 in Rn. 66: A erhält zudem zwei Kinderzulagen für seine in den Jahren 2004 und 2005 geborenen Kinder. Beitragspflichtige Einnahmen 53.000 € 4 % 2.120 € höchstens 2.100 € anzusetzen 2.100 € abzüglich Zulage 175 € Mindesteigenbeitrag (§ 86 Abs. 1 Satz 2 EStG) 1.925 € Sockelbetrag (§ 86 Abs. 1 Satz 4 EStG) 60 € maßgebend (§ 86 Abs. 1 Satz 5 EStG) 1.925 € Die von A geleisteten Beiträge übersteigen den Mindesteigenbeitrag. Die Zulage wird nicht gekürzt.',
'Wird die Zulage für A gekürzt, wenn die Beiträge den Mindesteigenbeitrag übersteigen?',
'Wie erfolgt die Besteuerung bei der ausgleichsberechtigten Person nach einer externen Teilung?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Obtener las puntuaciones de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Funcionalidades
- Modelo Sentence Transformer basado en BAAI/bge-m3
- Longitud máxima de secuencia: 1024 tokens
- Dimensionalidad de salida: 1024 tokens
- Función de similitud: Similitud coseno
Casos de uso
- Similitud textual semántica
- Búsqueda semántica
- Minería de paráfrasis
- Clasificación de texto
- Agrupamiento