Legal vietnamese-sbert
ictumuk
Similitud de oraciones
Legal vietnamese-sbert es un modelo de transformadores de oraciones ajustado desde keepitreal/vietnamese-sbert. Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede ser utilizado para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de textos, agrupamiento y más.
Como usar
Uso Directo (Transformadores de Oración)
Primero instala la biblioteca de Sentence Transformers:
pip install -U sentence-transformers
Entonces puedes cargar este modelo y ejecutar la inferencia.
from sentence_transformers import SentenceTransformer
# Descargar desde el Hub de 🤗
model = SentenceTransformer('ictumuk/legal-vietnamese-sbert')
# Ejecutar inferencia
sentences = [
'Trường hợp bảo đảm bằng quyền sử dụng đất, tài sản gắn liền với đất thì hợp đồng thế chấp vẫn còn hiệu lực, biện pháp thế chấp vẫn còn hiệu lực đối kháng với người thứ ba khi tài sản gắn liền với đất hoặc quyền sử dụng đất không phải là tài sản bảo đảm được mua bán, được chuyển nhượng, được chuyển giao khác về quyền sở hữu hoặc được dùng để bảo đảm thực hiện nghĩa vụ. Hiệu lực của hợp đồng bảo đảm, hiệu lực đối kháng của biện pháp bảo đảm bằng tài sản được tạo lập từ quyền bề mặt, quyền hưởng dụng với người thứ ba không thay đổi hoặc không chấm dứt trong trường hợp quyền sử dụng đất có quyền bề mặt, tài sản là đối tượng của quyền hưởng dụng được mua bán, được chuyển nhượng, được chuyển giao khác về quyền sở hữu hoặc được dùng để bảo đảm thực hiện nghĩa vụ.',
'Bảo đảm bằng quyền sử dụng đất, tài sản gắn liền với đất và tài sản được tạo lập từ quyền bề mặt, quyền hưởng dụng được quy định như thế nào?',
'Thời hạn hủy bỏ quyết định tạm đình chỉ liên quan đến tham nhũng được quy định như thế nào?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Obtener las puntuaciones de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Funcionalidades
- Ajustado desde el modelo base keepitreal/vietnamese-sbert
- Longitud máxima de secuencia: 256 tokens
- Dimensionalidad de salida: 768 tokens
- Función de similitud: Similitud Coseno
- Idioma: en
- Licencia: apache-2.0
Casos de uso
- Similitud textual semántica
- Búsqueda semántica
- Minería de paráfrasis
- Clasificación de texto
- Agrupamiento de textos