dunzhang/stella-large-zh-v3-1792d
dunzhang
Similitud de oraciones
dunzhang/stella-large-zh-v3-1792d es un modelo de transformación de oraciones basado en PyTorch. Este modelo se utiliza para la similitud de oraciones y cuenta con diversas funcionalidades para la extracción de características y la inferencia de incrustaciones de texto. Está optimizado para trabajar con grandes volúmenes de datos y es adecuado para tareas de codificación de vectores de texto general y de diálogos.
Como usar
Uso del modelo
Método de uso del modelo de codificación general:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("infgrad/stella-base-zh-v3-1792d")
# model = SentenceTransformer("infgrad/stella-large-zh-v3-1792d")
vectors = model.encode(["text1", "text2"])
Método de uso del modelo de codificación de diálogos:
Utilice dos modelos de codificación, uno para los diálogos y otro para los textos a ser buscados:
from sentence_transformers import SentenceTransformer
dial_model = SentenceTransformer("infgrad/stella-dialogue-large-zh-v3-1792d")
general_model = SentenceTransformer("infgrad/stella-large-zh-v3-1792d")
# dialogue = ["张三: 吃饭吗", "李四: 等会去"]
dialogue = ["A: 最近去打篮球了吗", "B: 没有"]
corpus = ["B没打篮球是因为受伤了。", "B没有打乒乓球"]
last_utterance_vector = dial_model.encode(["[SEP]".join(dialogue)], normalize_embeddings=True)
corpus_vectors = general_model.encode(corpus, normalize_embeddings=True)
# Calcular la similitud
sims = (last_utterance_vector * corpus_vectors).sum(axis=1)
print(sims)
Funcionalidades
- Similitud de oraciones
- Transformadores de oraciones
- Extracción de características
- Incrustaciones de texto
- Optimizado para el modelo bert
- Capacidad para trabajar con grandes volúmenes de datos
- Codificación de vectores de texto general y de diálogos
Casos de uso
- Similitud de oraciones
- Codificación de vectores para texto general
- Codificación de vectores para diálogos
- Tareas de búsqueda y coincidencia semántica
- Mejora de la eficacia en la recuperación de información