hellonlp/promcse-bert-large-zh

hellonlp
Similitud de oraciones

Este modelo está diseñado para la similitud de oraciones utilizando transformers y PyTorch, enfocado en el idioma chino. Es un modelo de texto-embeddings-inference que puede ser utilizado para varios propósitos, incluyendo endpoints de inferencia. Este modelo se evalúa utilizando diversos conjuntos de datos chinos y emplea una versión grande del modelo RoBERTa. Considera múltiples conjuntos de datos de entrenamiento, validación y prueba para asegurar la precisión en la evaluación.

Como usar

Para usar la herramienta, primero instale el paquete promcse desde PyPI

pip install promcse

Después de instalar el paquete, puede cargar nuestro modelo con dos líneas de código

from promcse import PromCSE
model = PromCSE("hellonlp/promcse-bert-large-zh", "cls", 10)

Luego puedes usar nuestro modelo para codificar frases en embeddings

embeddings = model.encode("武汉是一个美丽的城市。")
print(embeddings.shape)
#torch.Size([1024])

Calcula las similitudes coseno entre dos grupos de frases

sentences_a = ['你好吗']
sentences_b = ['你怎么样','我吃了一个苹果','你过的好吗','你还好吗','你','你好不好','你好不好呢','我不开心','我好开心啊', '你吃饭了吗','你好吗','你现在好吗','你好个鬼']
similarities = model.similarity(sentences_a, sentences_b)
print(similarities)
# [(1.0, '你好吗'),
#  (0.9324, '你好不好'),
#  (0.8945, '你好不好呢'),
#  (0.8845, '你还好吗'),
#  (0.8382, '你现在好吗'),
#  (0.8072, '你过的好吗'),
#  (0.7648, '你怎么样'),
#  (0.6736, '你'),
#  (0.5706, '你吃饭了吗'),
#  (0.5417, '你好个鬼'),
#  (0.3747, '我好开心啊'),
#  (0.0777, '我不开心'),
#  (0.0624, '我吃了一个苹果')]

Funcionalidades

Similitud de oraciones
Transformers
PyTorch
Text-embeddings-inference
Evaluación en múltiples conjuntos de datos
PromCSE paquetes de instalación

Casos de uso

Codificar frases en embeddings
Calcular similitud entre oraciones
Sentiment analysis
Clasificación de texto
Traducción automática