BGE grande Legal Español

adriansanz
Similitud de oraciones

Este es un modelo Sentence-Transformers ajustado a partir del modelo BAAI/bge-m3. Mapea oraciones y párrafos a un espacio vectorial denso de 1024 dimensiones y puede ser utilizado para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de textos, agrupamiento, y más.

Como usar

Uso directo (Sentence Transformers)

Primero instala la biblioteca Sentence Transformers:

pip install -U sentence-transformers

Luego puedes cargar este modelo y ejecutar inferencias.

from sentence_transformers import SentenceTransformer

# Descargar desde el Hub de 🤗
model = SentenceTransformer("adriansanz/bge-m3-es-legal-tmp-6")

# Ejecutar inferencias
sentences = [
    'Positiu, llevat els casos en els quals manquin informes preceptius i vinculants d’altres administracions o d’aquells en els què es transfereixin al sol·licitant facultats contràries al planejament i la legislació urbanística.',
    "Quin és el sentit del silenci administratiu per a la comunicació prèvia d'obres per instal·lacions de plaques solars en sol urbà?",
    'Quin és el lloc on es pot tramitar la presentació de justificants de pagament per als ajuts del lloguer just dels habitatges?'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Obtener las puntuaciones de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Funcionalidades

Modelo Transformer de oraciones
Modelo base: BAAI/bge-m3
Longitud máxima de la secuencia: 8192 tokens
Dimensionalidad de salida: 1024 tokens
Función de similitud: Similitud de coseno
Idioma: Español
Licencia: Apache-2.0

Casos de uso

Similitud textual semántica
Búsqueda semántica
Minería de paráfrasis
Clasificación de textos
Agrupamiento de textos