Transformadores de oración experimental huBERT Húngaro

NYTK

Similitud de oraciones

El huBERT preentrenado se ajustó para imitar el modelo bert-base-nli-stsb-mean-tokens proporcionado por UKPLab, utilizando el corpus paralelo Hunglish 2.0. Las incrustaciones de oración se obtuvieron aplicando el pooling promedio a la salida de huBERT. Los datos se dividieron en conjuntos de entrenamiento (98%) y validación (2%). Al final del entrenamiento, se calculó un error cuadrático medio de 0.106 en el conjunto de validación. Nuestro código se basó en la biblioteca Sentence-Transformers. Nuestro modelo se entrenó durante 2 épocas en una tarjeta GPU GTX 1080Ti con un tamaño de lote de 32. El entrenamiento tomó aproximadamente 15 horas.

Como usar

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('NYTK/sentence-transformers-experimental-hubert-hungarian')
embeddings = model.encode(sentences)
print(embeddings)

Funcionalidades

Paralelo al modelo bert-base-nli-stsb-mean-tokens
Pooling promedio aplicado a la salida de huBERT
División de los datos: 98% entrenamiento y 2% validación
Entrenamiento realizado en GPU GTX 1080Ti
Error cuadrático medio de 0.106 en el conjunto de validación

Casos de uso

Análisis de similitud de frases
Obtención de incrustaciones de texto
Modelado de temas basado en BERT