pkshatech/simcse-ja-bert-base-clcmlp
pkshatech
Similitud de oraciones
Este es un modelo de SimCSE japonés. Puedes extraer fácilmente representaciones de embeddings de oraciones en japonés. Este modelo se basa en cl-tohoku/bert-base-japanese-v2 y fue entrenado en el dataset JSNLI, que es un dataset de inferencia de lenguaje natural en japonés.
Como usar
Puedes usar este modelo fácilmente con sentence-transformers. Necesitas fugashi y unidic-lite para la tokenización. Por favor instala sentence-transformers, fugashi y unidic-lite con pip de la siguiente manera:
pip install -U fugashi[unidic-lite] sentence-transformers
Puedes cargar el modelo y convertir oraciones a vectores densos de la siguiente manera:
from sentence_transformers import SentenceTransformer
sentences = [
"PKSHA Technology está desarrollando soluciones algorítmicas relacionadas con tecnologías de aprendizaje automático/aprendizaje profundo.",
"Este modelo de aprendizaje profundo fue entrenado y publicado por PKSHA Technology.",
"Koumokuten es una de las cuatro deidades guardianas en el budismo, cuyo nombre deriva del sánscrito que significa 'el que tiene diversos ojos'.",
]
model = SentenceTransformer('pkshatech/simcse-ja-bert-base-clcmlp')
embeddings = model.encode(sentences)
print(embeddings)
Dado que la función de pérdida utilizada durante el entrenamiento es la similitud de coseno, recomendamos usar la similitud de coseno para las tareas posteriores.
Funcionalidades
- Extracción de representaciones de embeddings de oraciones en japonés
- Basado en cl-tohoku/bert-base-japanese-v2
- Entrenado en el dataset JSNLI
- Utiliza la similitud de coseno como función de pérdida
Casos de uso
- Extracción de embeddings de oraciones en japonés para tareas de similitud de oraciones
- Aplicaciones de clasificación o agrupación basadas en embeddings de oraciones
- Cualquier aplicación que requiera representaciones densas de texto en japonés