colorfulscoop/sbert-base-ja

colorfulscoop

Similitud de oraciones

Este repositorio contiene un modelo base de BERT de oraciones en japonés. Este modelo utiliza un modelo japonés de BERT colorfulscoop/bert-base-ja v1.0, liberado bajo Creative Commons Attribution-ShareAlike 3.0, como un modelo preentrenado. El conjunto de datos japonés SNLI lanzado bajo Creative Commons Attribution-ShareAlike 4.0 se utiliza para el entrenamiento.

Como usar

Primero, instala las dependencias.
$ pip install sentence-transformers==2.0.0

Luego inicializa el modelo SentenceTransformer y utiliza el método encode para convertir a vectores.
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("colorfulscoop/sbert-base-ja")
sentences = ["外をランニングするのが好きです", "海外旅行に行くのが趣味です"]
model.encode(sentences)

Funcionalidades

Modelo de BERT para japonés preentrenado.
Utiliza un clasificador Softmax de 3 etiquetas de SNLI.
Optimización con AdamW y un tamaño de lote de 8.
Entrenamiento conducido en Ubuntu 18.04.5 LTS con una RTX 2080 Ti.
Precisión del conjunto de prueba alcanzó 0.8529.
Código de entrenamiento disponible en un repositorio de GitHub.

Casos de uso

Comparación de similitud de oraciones.
Extracción de características de texto.
Creación de embeddings de texto para inferencias.