dunzhang/stella-large-zh-v3-1792d

dunzhang

Similitud de oraciones

dunzhang/stella-large-zh-v3-1792d es un modelo de transformación de oraciones basado en PyTorch. Este modelo se utiliza para la similitud de oraciones y cuenta con diversas funcionalidades para la extracción de características y la inferencia de incrustaciones de texto. Está optimizado para trabajar con grandes volúmenes de datos y es adecuado para tareas de codificación de vectores de texto general y de diálogos.

Como usar

Uso del modelo
Método de uso del modelo de codificación general:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("infgrad/stella-base-zh-v3-1792d")
# model = SentenceTransformer("infgrad/stella-large-zh-v3-1792d")
vectors = model.encode(["text1", "text2"])

Método de uso del modelo de codificación de diálogos:
Utilice dos modelos de codificación, uno para los diálogos y otro para los textos a ser buscados:
from sentence_transformers import SentenceTransformer
dial_model = SentenceTransformer("infgrad/stella-dialogue-large-zh-v3-1792d")
general_model = SentenceTransformer("infgrad/stella-large-zh-v3-1792d")
# dialogue = ["张三: 吃饭吗", "李四: 等会去"]
dialogue = ["A: 最近去打篮球了吗", "B: 没有"]
corpus = ["B没打篮球是因为受伤了。", "B没有打乒乓球"]
last_utterance_vector = dial_model.encode(["[SEP]".join(dialogue)], normalize_embeddings=True)
corpus_vectors = general_model.encode(corpus, normalize_embeddings=True)
# Calcular la similitud
sims = (last_utterance_vector * corpus_vectors).sum(axis=1)
print(sims)

Funcionalidades

Similitud de oraciones
Transformadores de oraciones
Extracción de características
Incrustaciones de texto
Optimizado para el modelo bert
Capacidad para trabajar con grandes volúmenes de datos
Codificación de vectores de texto general y de diálogos

Casos de uso

Similitud de oraciones
Codificación de vectores para texto general
Codificación de vectores para diálogos
Tareas de búsqueda y coincidencia semántica
Mejora de la eficacia en la recuperación de información