akot/german-semantic-bmf-matryoshka

akot
Similitud de oraciones

Este es un modelo de transformadores de oraciones afinado a partir de aari1995/German_Semantic_V3. Mapea oraciones y párrafos a un espacio vectorial denso de 1024 dimensiones y se puede usar para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de textos, agrupación y más.

Como usar

Usar el modelo directamente (Transformadores de Oraciones)

Primero, instala la biblioteca Sentence Transformers:

pip install -U sentence-transformers

Luego, puedes cargar este modelo y ejecutar inferencia.

from sentence_transformers import SentenceTransformer

# Descargar desde 🤗 Hub
model = SentenceTransformer("akot/german-semantic-bmf-matryoshka")
# Ejecutar inferencia
sentences = [
    '67 Abwandlung des Beispiels 1 in Rn. 66: A erhält zudem zwei Kinderzulagen für seine in den Jahren 2004 und 2005 geborenen Kinder. Beitragspflichtige Einnahmen 53.000 € 4 % 2.120 € höchstens 2.100 € anzusetzen 2.100 € abzüglich Zulage 175 € Mindesteigenbeitrag (§ 86 Abs. 1 Satz 2 EStG) 1.925 € Sockelbetrag (§ 86 Abs. 1 Satz 4 EStG) 60 € maßgebend (§ 86 Abs. 1 Satz 5 EStG) 1.925 € Die von A geleisteten Beiträge übersteigen den Mindesteigenbeitrag. Die Zulage wird nicht gekürzt.',
    'Wird die Zulage für A gekürzt, wenn die Beiträge den Mindesteigenbeitrag übersteigen?',
    'Wie erfolgt die Besteuerung bei der ausgleichsberechtigten Person nach einer externen Teilung?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Obtener los puntajes de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Funcionalidades

Modelo de Transformadores de Oraciones
Modelo base: aari1995/German_Semantic_V3
Longitud máxima de secuencia: 1024 tokens
Dimensionalidad de la salida: 1024 tokens
Función de similitud: Similitud Coseno

Casos de uso

Similitud textual semántica
Búsqueda semántica
Minería de paráfrasis
Clasificación de textos
Agrupación