pkshatech/GLuCoSE-base-ja

pkshatech

Similitud de oraciones

GLuCoSE (General LUke-based COntrastive Sentence Embedding, "glucose") es un modelo de incrustación de texto en japonés basado en LUKE. Con el objetivo de crear un modelo de incrustación de texto en japonés de propósito general y fácil de usar, GLuCoSE ha sido entrenado con una mezcla de datos web y varios conjuntos de datos asociados a la inferencia de lenguaje natural y la búsqueda. Este modelo no solo es adecuado para tareas de similitud de vectores de oraciones, sino también para tareas de búsqueda semántica.

Como usar

Puedes utilizar este modelo fácilmente con sentence-transformers. Primero, instala sentence-transformers con pip de la siguiente manera:
pip install -U sentence-transformers

Puedes cargar el modelo y convertir las oraciones en vectores densos como se muestra a continuación:
from sentence_transformers import SentenceTransformer

sentences = [
    "PKSHA Technologyは機械学習/深層学習技術に関わるアルゴリズムソリューションを展開している。",
    "この深層学習モデルはPKSHA Technologyによって学習され、公開された。",
    "広目天は、仏教における四天王の一尊であり、サンスクリット語の「種々の眼をした者」を名前の由来とする。",
]

model = SentenceTransformer('pkshatech/GLuCoSE-base-ja')
embeddings = model.encode(sentences)
print(embeddings)

Dado que la función de pérdida utilizada durante el entrenamiento es la similitud coseno, recomendamos usar la similitud coseno para las tareas posteriores.

Funcionalidades

Conteo máximo de tokens: 512
Dimensión de salida: 768
Agrupación: agrupación media
Idioma soportado: Japonés

Casos de uso

Cálculo de similitud semántica
Búsqueda semántica
Tareas de similitud de vectores de oraciones