AusLaw Embedding v1.0

adlumal

Similitud de oraciones

Este es un modelo de sentence-transformers: mapea oraciones y párrafos a un espacio vectorial denso de 384 dimensiones y se puede usar para tareas como el clustering o la búsqueda semántica. Este modelo es un ajuste fino de BAAI/bge-small-en utilizando el caso de ley HCA en el Open Australian Legal Corpus por Umar Butler. Los casos en PDF/OCR no fueron utilizados. Los casos fueron divididos en fragmentos de contexto de menos de 512 utilizando el tokenizador y semchunk de bge-small-en. mistralai/Mixtral-8x7B-Instruct-v0.1 se utilizó para generar una pregunta legal para cada fragmento de contexto. Se utilizaron 129,137 pares de contexto-pregunta para el entrenamiento y 14,348 pares de contexto-pregunta para la evaluación. Basado en un 10% del conjunto de datos de validación, se alcanzó el siguiente rendimiento en la tasa de aciertos y se comparó con el modelo base y el modelo de embedding por defecto de OpenAI.

Como usar

Usar este modelo es fácil cuando tienes sentence-transformers instalado:
pip install -U sentence-transformers

Luego puedes usar el modelo así:
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer('adlumal/auslaw-embed-v1.0')
embeddings = model.encode(sentences)
print(embeddings)

Funcionalidades

Espacio vectorial denso de 384 dimensiones
Clustering
Búsqueda semántica
Ajuste fino del modelo BAAI/bge-small-en
Generación automática de preguntas legales

Casos de uso

Clustering
Búsqueda semántica