OctopusMind/longbert-embedding-8k-zh

OctopusMind

Similitud de oraciones

Long Bert: modelo de similitud de texto largo, soporta longitudes de secuencia de hasta 8192 tokens. Basado en bert-base-chinese, este modelo cambia la codificación de posición original de BERT a la codificación de posición ALiBi, permitiendo que BERT soporte longitudes de secuencia de hasta 8192 tokens.

Como usar

from numpy.linalg import norm
from transformers import AutoModel

model_path = "OctopusMind/longbert-embedding-8k-zh"
model = AutoModel.from_pretrained(model_path, trust_remote_code=True)

sentences = ['我是问蚂蚁借呗为什么不能提前结清欠款', "为什么借呗不能选择提前还款"]
embeddings = model.encode(sentences)
cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))
print(cos_sim(embeddings[0], embeddings[1]))

Funcionalidades

Soporta longitudes de secuencia de hasta 8192 tokens
Basado en bert-base-chinese
Codificación de posición ALiBi
Compatible con PyTorch
Optimizado para extracción de características y creación de embeddings de texto
Compatible con entornos de inferencia

Casos de uso

Comparación de similitud de textos largos
Generación de embeddings para textos en chino
Extracción de características de textos para análisis