pkshatech/GLuCoSE-base-ja
GLuCoSE (General LUke-based COntrastive Sentence Embedding, "glucose") es un modelo de incrustación de texto en japonés basado en LUKE. Con el objetivo de crear un modelo de incrustación de texto en japonés de propósito general y fácil de usar, GLuCoSE ha sido entrenado con una mezcla de datos web y varios conjuntos de datos asociados a la inferencia de lenguaje natural y la búsqueda. Este modelo no solo es adecuado para tareas de similitud de vectores de oraciones, sino también para tareas de búsqueda semántica.
Como usar
Puedes utilizar este modelo fácilmente con sentence-transformers. Primero, instala sentence-transformers con pip de la siguiente manera:
pip install -U sentence-transformers
Puedes cargar el modelo y convertir las oraciones en vectores densos como se muestra a continuación:
from sentence_transformers import SentenceTransformer
sentences = [
"PKSHA Technologyは機械学習/深層学習技術に関わるアルゴリズムソリューションを展開している。",
"この深層学習モデルはPKSHA Technologyによって学習され、公開された。",
"広目天は、仏教における四天王の一尊であり、サンスクリット語の「種々の眼をした者」を名前の由来とする。",
]
model = SentenceTransformer('pkshatech/GLuCoSE-base-ja')
embeddings = model.encode(sentences)
print(embeddings)
Dado que la función de pérdida utilizada durante el entrenamiento es la similitud coseno, recomendamos usar la similitud coseno para las tareas posteriores.
Funcionalidades
- Conteo máximo de tokens: 512
- Dimensión de salida: 768
- Agrupación: agrupación media
- Idioma soportado: Japonés
Casos de uso
- Cálculo de similitud semántica
- Búsqueda semántica
- Tareas de similitud de vectores de oraciones