German_Semantic_V3

aari1995

Similitud de oraciones

Los sucesores de German_Semantic_STS_V2 están aquí y vienen con muchas características nuevas y geniales. Mientras que V3 es realmente intensivo en conocimiento, German_Semantic_V3b está más enfocado en el rendimiento. Siéntase libre de proporcionar comentarios sobre el modelo y qué le gustaría ver a continuación. Nota: Para ejecutar este modelo correctamente, consulte 'Uso'. Use este modelo para crear embeddings semánticos de oraciones en alemán.

Como usar

Este modelo tiene alguna funcionalidad incorporada que está algo oculta. Para aprovecharla, use este código:
from sentence_transformers import SentenceTransformer

matryoshka_dim = 1024 # Cuán grandes deben ser tus embeddings, elija entre: 64, 128, 256, 512, 768, 1024
model = SentenceTransformer("aari1995/German_Semantic_V3", trust_remote_code=True, truncate_dim=matryoshka_dim)

# model.truncate_dim = 64 # las dimensiones de truncamiento también se pueden cambiar después de cargar
# model.max_seq_length = 512 # opcionalmente, ajuste su longitud máxima de secuencia más baja si su hardware es limitado

# Ejecutar inferencia
sentences = [
'Eine Flagge weht.',
'Die Flagge bewegte sich in der Luft.',
'Zwei Personen beobachten das Wasser.',
]

# Para embeddings FP16 (mitad de espacio, sin pérdida de calidad)
embeddings = model.encode(sentences, convert_to_tensor=True).half()

# Para embeddings FP32 (toma más espacio)
# embeddings = model.encode(sentences)

# Obtener las puntuaciones de similitud para los embeddings
similarities = model.similarity(embeddings, embeddings)

Funcionalidades

Flexibilidad: Entrenado con longitud de secuencia flexible y truncamiento de embeddings, la flexibilidad es una característica principal del modelo. Sin embargo, las dimensiones más pequeñas traen un pequeño sacrificio en la calidad.
Longitud de secuencia: Embebe hasta 8192 tokens (16 veces más que V2 y otros modelos).
Embeddings Matryoshka: El modelo está entrenado para tamaños de embeddings desde 1024 hasta 64, lo que le permite almacenar embeddings mucho más pequeños con poca pérdida de calidad.
Solo Alemán: Este modelo es solo para alemán, tiene un conocimiento cultural rico sobre Alemania y temas alemanes. Por lo tanto, el modelo también aprende de manera más eficiente gracias a su tokenizador, maneja mejor las consultas más cortas y, en general, es más matizado en muchos escenarios.
Conocimiento y datos de calidad actualizados: La columna vertebral de este modelo es gbert-large por deepset. Con pre-entrenamiento de etapa 2 en 1 billón de tokens de German fineweb por occiglot, se asegura conocimiento actualizado.
Errores tipográficos y uso de mayúsculas: Este modelo fue entrenado para ser robusto contra pequeños errores tipográficos y uso de mayúsculas, resultando en un rendimiento ligeramente más débil en los benchmarks y aprendizaje durante el entrenamiento, pero mayor robustez de los embeddings.
Función de Pooling: Alejándose del mean pooling hacia el uso del token CLS. Generalmente parece aprender mejor después del pre-entrenamiento de la etapa-2 y permite más flexibilidad.
Licencia: Apache 2.0.

Casos de uso

Creación de embeddings semánticos de oraciones en alemán.
Modelos de codificadores alemanes para tareas RAG / Clasificación con un tokenizador alemán.
Almacenamiento de embeddings más pequeños con pérdida mínima de calidad.
Manejo de consultas más cortas y ser más matizado en muchos escenarios.