colorfulscoop/sbert-base-ja
colorfulscoop
Similitud de oraciones
Este repositorio contiene un modelo base de BERT de oraciones en japonés. Este modelo utiliza un modelo japonés de BERT colorfulscoop/bert-base-ja v1.0, liberado bajo Creative Commons Attribution-ShareAlike 3.0, como un modelo preentrenado. El conjunto de datos japonés SNLI lanzado bajo Creative Commons Attribution-ShareAlike 4.0 se utiliza para el entrenamiento.
Como usar
Primero, instala las dependencias.
$ pip install sentence-transformers==2.0.0
Luego inicializa el modelo SentenceTransformer y utiliza el método encode para convertir a vectores.
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("colorfulscoop/sbert-base-ja")
sentences = ["外をランニングするのが好きです", "海外旅行に行くのが趣味です"]
model.encode(sentences)
Funcionalidades
- Modelo de BERT para japonés preentrenado.
- Utiliza un clasificador Softmax de 3 etiquetas de SNLI.
- Optimización con AdamW y un tamaño de lote de 8.
- Entrenamiento conducido en Ubuntu 18.04.5 LTS con una RTX 2080 Ti.
- Precisión del conjunto de prueba alcanzó 0.8529.
- Código de entrenamiento disponible en un repositorio de GitHub.
Casos de uso
- Comparación de similitud de oraciones.
- Extracción de características de texto.
- Creación de embeddings de texto para inferencias.