norsbert3-base-matryoshka
MagnusSa
Similitud de oraciones
Este es un modelo de sentence-transformers afinado a partir de ltg/norbert3-base utilizando los conjuntos de datos utdanning_pair_qa, ltg/norquad y NbAiLab/mnli-norwegian. Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede ser utilizado para similitud semántica textual, búsqueda semántica, minería de paráfrasis, clasificación de texto, agrupamiento y más. De manera similar a la arquitectura BGE y Artic-embed, utiliza el estado oculto final del token [CLS] como vector de incrustación en lugar de una estrategia de agrupamiento promedio.
Como usar
Uso Directo (Transformadores de Oraciones)
pip install -U sentence-transformers
from sentence_transformers import SentenceTransformer
# Descargar desde el Hub de 🤗
model = SentenceTransformer("MagnusSa/norsbert3-base-matryoshka", trust_remote_code=True)
# Ejecutar inferencias
sentences = [
'Det vil si: at han har fått beskjed om Lord Julian Wade.',
'Han ble på forhånd fortalt om Lord Julian Wades ankomst.',
'Ikke en eneste person ble fortalt at Lord Julian Wade nærmet seg raskt.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Obtener los puntajes de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Funcionalidades
- Modelo Transformer de Oración
- Modelo base: ltg/norbert3-base
- Longitud máxima de secuencia: 512 tokens
- Dimensionalidad de salida: 768 tokens
- Función de similitud: Similitud de coseno
- Conjuntos de datos de entrenamiento: utdanning_pair_qa, ltg/norquad, NbAiLab/mnli-norwegian
- Idioma: Noruego
- Licencia: apache-2.0
Casos de uso
- Similitud semántica textual
- Búsqueda semántica
- Minado de paráfrasis
- Clasificación de texto
- Agrupamiento