akot/german-semantic-bmf-matryoshka
akot
Similitud de oraciones
Este es un modelo de transformadores de oraciones afinado a partir de aari1995/German_Semantic_V3. Mapea oraciones y párrafos a un espacio vectorial denso de 1024 dimensiones y se puede usar para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de textos, agrupación y más.
Como usar
Usar el modelo directamente (Transformadores de Oraciones)
Primero, instala la biblioteca Sentence Transformers:
pip install -U sentence-transformers
Luego, puedes cargar este modelo y ejecutar inferencia.
from sentence_transformers import SentenceTransformer
# Descargar desde 🤗 Hub
model = SentenceTransformer("akot/german-semantic-bmf-matryoshka")
# Ejecutar inferencia
sentences = [
'67 Abwandlung des Beispiels 1 in Rn. 66: A erhält zudem zwei Kinderzulagen für seine in den Jahren 2004 und 2005 geborenen Kinder. Beitragspflichtige Einnahmen 53.000 € 4 % 2.120 € höchstens 2.100 € anzusetzen 2.100 € abzüglich Zulage 175 € Mindesteigenbeitrag (§ 86 Abs. 1 Satz 2 EStG) 1.925 € Sockelbetrag (§ 86 Abs. 1 Satz 4 EStG) 60 € maßgebend (§ 86 Abs. 1 Satz 5 EStG) 1.925 € Die von A geleisteten Beiträge übersteigen den Mindesteigenbeitrag. Die Zulage wird nicht gekürzt.',
'Wird die Zulage für A gekürzt, wenn die Beiträge den Mindesteigenbeitrag übersteigen?',
'Wie erfolgt die Besteuerung bei der ausgleichsberechtigten Person nach einer externen Teilung?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Obtener los puntajes de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Funcionalidades
- Modelo de Transformadores de Oraciones
- Modelo base: aari1995/German_Semantic_V3
- Longitud máxima de secuencia: 1024 tokens
- Dimensionalidad de la salida: 1024 tokens
- Función de similitud: Similitud Coseno
Casos de uso
- Similitud textual semántica
- Búsqueda semántica
- Minería de paráfrasis
- Clasificación de textos
- Agrupación