norsbert3-base-matryoshka

MagnusSa
Similitud de oraciones

Este es un modelo de sentence-transformers afinado a partir de ltg/norbert3-base utilizando los conjuntos de datos utdanning_pair_qa, ltg/norquad y NbAiLab/mnli-norwegian. Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede ser utilizado para similitud semántica textual, búsqueda semántica, minería de paráfrasis, clasificación de texto, agrupamiento y más. De manera similar a la arquitectura BGE y Artic-embed, utiliza el estado oculto final del token [CLS] como vector de incrustación en lugar de una estrategia de agrupamiento promedio.

Como usar

Uso Directo (Transformadores de Oraciones)

pip install -U sentence-transformers
from sentence_transformers import SentenceTransformer

# Descargar desde el Hub de 🤗
model = SentenceTransformer("MagnusSa/norsbert3-base-matryoshka", trust_remote_code=True)

# Ejecutar inferencias
sentences = [
'Det vil si: at han har fått beskjed om Lord Julian Wade.',
'Han ble på forhånd fortalt om Lord Julian Wades ankomst.',
'Ikke en eneste person ble fortalt at Lord Julian Wade nærmet seg raskt.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Obtener los puntajes de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Funcionalidades

Modelo Transformer de Oración
Modelo base: ltg/norbert3-base
Longitud máxima de secuencia: 512 tokens
Dimensionalidad de salida: 768 tokens
Función de similitud: Similitud de coseno
Conjuntos de datos de entrenamiento: utdanning_pair_qa, ltg/norquad, NbAiLab/mnli-norwegian
Idioma: Noruego
Licencia: apache-2.0

Casos de uso

Similitud semántica textual
Búsqueda semántica
Minado de paráfrasis
Clasificación de texto
Agrupamiento