maiduchuy321/vietnamese-bi-encoder-fine-tuning-for-law-chatbot
maiduchuy321
Similitud de oraciones
Este es un modelo de sentence-transformers ajustado a partir del modelo bkai-foundation-models/vietnamese-bi-encoder. Mapea oraciones y párrafos a un espacio denso de vectores de 768 dimensiones y se puede utilizar para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de texto, agrupamiento y más.
Como usar
Primero, instala la librería Sentence Transformers:
pip install -U sentence-transformers
Luego puedes cargar este modelo y ejecutar la inferencia.
from sentence_transformers import SentenceTransformer
# Descargar desde el Hub de 🤗
model = SentenceTransformer('maiduchuy321/vietnamese-bi-encoder-fine-tuning-for-law-chatbot')
# Ejecutar inferencia
sentences = [
'Thời gian giải quyết thủ tục hành chính đối với 01 bộ hồ sơ quảng cáo thực phẩm?',
'Theo quy định tại khoản 5 Điều 27 Nghị định 15/2018/NĐ-CP: Trong thời hạn 10 ngày làm việc, kể từ ngày nhận đủ hồ sơ hợp lệ, cơ quan tiếp nhận hồ sơ có trách nhiệm xem xét hồ sơ và trả kết quả theo Mẫu số 11 Phụ lục I ban hành kèm theo Nghị định 15/2018/NĐ-CP. Thời hạn này được tính từ ngày đóng dấu đến của cơ quan tiếp nhận hồ sơ nếu hồ sơ được gửi qua đường bưu điện hoặc ngày hồ sơ hoàn chỉnh được tiếp nhận trên hệ thống dịch vụ công trực tuyến. Trong trường hợp không đồng ý với nội dung quảng cáo của tổ chức, cá nhân hoặc yêu cầu sửa đổi, bổ sung, cơ quan tiếp nhận hồ sơ phải có văn bản nêu rõ lý do và căn cứ pháp lý của việc yêu cầu. Trong thời hạn 10 ngày làm việc kể từ khi nhận hồ sơ sửa đổi, bổ sung, cơ quan tiếp nhận hồ sơ thẩm định hồ sơ và có văn bản trả lời. Sau 90 ngày làm việc kể từ khi có công văn yêu cầu sửa đổi, bổ sung nếu tổ chức, cá nhân không sửa đổi, bổ sung thì hồ sơ không còn giá trị.',
'Ngoài các hồ sơ, tài liệu gửi 1 lần và gửi hàng năm theo chế độ quy định, chủ đầu tư gửi KBNN các hồ sơ, tài liệu có liên quan theo quy định tại tiết 1.5.1, mục 1.5, và 1.5.1, mục 1.6, điểm 1, phần II, Thông tư số 113/2008/TT-BTC ngày 27/11/2008 của BTC cụ thể: Hồ sơ cam kết chi thường xuyên: - Hợp đồng mua bán hàng hoá, dịch vụ có giá trị từ 100 triệu đồng trở lên (gửi lần đầu hoặc khi có điều chỉnh hợp đồng);- Đề nghị cam kết chi hoặc đề nghị điều chỉnh cam kết chi. Hồ sơ cam kết chi đầu tư: - Hợp đồng có giá trị từ 500 triệu đồng trở lên (gửi lần đầu khi đề nghị cam kết chi hoặc gửi khi có điều chỉnh hợp đồng);- Đề nghị cam kết chi hoặc đề nghị điều chỉnh cam kết chi.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Obtener las puntuaciones de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Funcionalidades
- Transformador de oraciones basado en Roberta
- Longitud máxima de secuencia: 256 tokens
- Dimensionalidad de salida: 768 tokens
- Función de similitud: Similitud del coseno
- Compatible con AutoTrain
- Compatible con Inference Endpoints
Casos de uso
- Similitud textual semántica
- Búsqueda semántica
- Minería de paráfrasis
- Clasificación de texto
- Agrupamiento