BGE grande Legal Español
adriansanz
Similitud de oraciones
Este es un modelo Sentence-Transformers ajustado a partir del modelo BAAI/bge-m3. Mapea oraciones y párrafos a un espacio vectorial denso de 1024 dimensiones y puede ser utilizado para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de textos, agrupamiento, y más.
Como usar
Uso directo (Sentence Transformers)
Primero instala la biblioteca Sentence Transformers:
pip install -U sentence-transformers
Luego puedes cargar este modelo y ejecutar inferencias.
from sentence_transformers import SentenceTransformer
# Descargar desde el Hub de 🤗
model = SentenceTransformer("adriansanz/bge-m3-es-legal-tmp-6")
# Ejecutar inferencias
sentences = [
'Positiu, llevat els casos en els quals manquin informes preceptius i vinculants d’altres administracions o d’aquells en els què es transfereixin al sol·licitant facultats contràries al planejament i la legislació urbanística.',
"Quin és el sentit del silenci administratiu per a la comunicació prèvia d'obres per instal·lacions de plaques solars en sol urbà?",
'Quin és el lloc on es pot tramitar la presentació de justificants de pagament per als ajuts del lloguer just dels habitatges?'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Obtener las puntuaciones de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Funcionalidades
- Modelo Transformer de oraciones
- Modelo base: BAAI/bge-m3
- Longitud máxima de la secuencia: 8192 tokens
- Dimensionalidad de salida: 1024 tokens
- Función de similitud: Similitud de coseno
- Idioma: Español
- Licencia: Apache-2.0
Casos de uso
- Similitud textual semántica
- Búsqueda semántica
- Minería de paráfrasis
- Clasificación de textos
- Agrupamiento de textos