pkshatech/simcse-ja-bert-base-clcmlp

pkshatech
Similitud de oraciones

Este es un modelo de SimCSE japonés. Puedes extraer fácilmente representaciones de embeddings de oraciones en japonés. Este modelo se basa en cl-tohoku/bert-base-japanese-v2 y fue entrenado en el dataset JSNLI, que es un dataset de inferencia de lenguaje natural en japonés.

Como usar

Puedes usar este modelo fácilmente con sentence-transformers. Necesitas fugashi y unidic-lite para la tokenización. Por favor instala sentence-transformers, fugashi y unidic-lite con pip de la siguiente manera:

pip install -U fugashi[unidic-lite] sentence-transformers

Puedes cargar el modelo y convertir oraciones a vectores densos de la siguiente manera:

from sentence_transformers import SentenceTransformer

sentences = [
"PKSHA Technology está desarrollando soluciones algorítmicas relacionadas con tecnologías de aprendizaje automático/aprendizaje profundo.",
"Este modelo de aprendizaje profundo fue entrenado y publicado por PKSHA Technology.",
"Koumokuten es una de las cuatro deidades guardianas en el budismo, cuyo nombre deriva del sánscrito que significa 'el que tiene diversos ojos'.",
]

model = SentenceTransformer('pkshatech/simcse-ja-bert-base-clcmlp')
embeddings = model.encode(sentences)
print(embeddings)

Dado que la función de pérdida utilizada durante el entrenamiento es la similitud de coseno, recomendamos usar la similitud de coseno para las tareas posteriores.

Funcionalidades

Extracción de representaciones de embeddings de oraciones en japonés
Basado en cl-tohoku/bert-base-japanese-v2
Entrenado en el dataset JSNLI
Utiliza la similitud de coseno como función de pérdida

Casos de uso

Extracción de embeddings de oraciones en japonés para tareas de similitud de oraciones
Aplicaciones de clasificación o agrupación basadas en embeddings de oraciones
Cualquier aplicación que requiera representaciones densas de texto en japonés