Transformadores de oración experimental huBERT Húngaro
NYTK
Similitud de oraciones
El huBERT preentrenado se ajustó para imitar el modelo bert-base-nli-stsb-mean-tokens proporcionado por UKPLab, utilizando el corpus paralelo Hunglish 2.0. Las incrustaciones de oración se obtuvieron aplicando el pooling promedio a la salida de huBERT. Los datos se dividieron en conjuntos de entrenamiento (98%) y validación (2%). Al final del entrenamiento, se calculó un error cuadrático medio de 0.106 en el conjunto de validación. Nuestro código se basó en la biblioteca Sentence-Transformers. Nuestro modelo se entrenó durante 2 épocas en una tarjeta GPU GTX 1080Ti con un tamaño de lote de 32. El entrenamiento tomó aproximadamente 15 horas.
Como usar
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer('NYTK/sentence-transformers-experimental-hubert-hungarian')
embeddings = model.encode(sentences)
print(embeddings)
Funcionalidades
- Paralelo al modelo bert-base-nli-stsb-mean-tokens
- Pooling promedio aplicado a la salida de huBERT
- División de los datos: 98% entrenamiento y 2% validación
- Entrenamiento realizado en GPU GTX 1080Ti
- Error cuadrático medio de 0.106 en el conjunto de validación
Casos de uso
- Análisis de similitud de frases
- Obtención de incrustaciones de texto
- Modelado de temas basado en BERT