OctopusMind/longbert-embedding-8k-zh
OctopusMind
Similitud de oraciones
Long Bert: modelo de similitud de texto largo, soporta longitudes de secuencia de hasta 8192 tokens. Basado en bert-base-chinese, este modelo cambia la codificación de posición original de BERT a la codificación de posición ALiBi, permitiendo que BERT soporte longitudes de secuencia de hasta 8192 tokens.
Como usar
from numpy.linalg import norm
from transformers import AutoModel
model_path = "OctopusMind/longbert-embedding-8k-zh"
model = AutoModel.from_pretrained(model_path, trust_remote_code=True)
sentences = ['我是问蚂蚁借呗为什么不能提前结清欠款', "为什么借呗不能选择提前还款"]
embeddings = model.encode(sentences)
cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))
print(cos_sim(embeddings[0], embeddings[1]))
Funcionalidades
- Soporta longitudes de secuencia de hasta 8192 tokens
- Basado en bert-base-chinese
- Codificación de posición ALiBi
- Compatible con PyTorch
- Optimizado para extracción de características y creación de embeddings de texto
- Compatible con entornos de inferencia
Casos de uso
- Comparación de similitud de textos largos
- Generación de embeddings para textos en chino
- Extracción de características de textos para análisis