BGE base PatentMatch Matryoshka
bhlim
Similitud de oraciones
Este es un modelo de transformadores de oraciones afinado desde el modelo BAAI/bge-base-en-v1.5 en el conjunto de datos bhlim/patentmatch_for_finetuning. Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede usarse para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de texto, agrupación y más.
Como usar
Primero instala la biblioteca Sentence Transformers con el comando:
pip install -U sentence-transformers
Luego, puedes cargar este modelo y ejecutar inferencias con el siguiente código:
from sentence_transformers import SentenceTransformer
# Descargar desde el Hub de 🤗
model = SentenceTransformer("bhlim/bge-base-patentmatch")
# Ejecutar inferencia
sentences = [
'Refiriéndose a FIG.32 un dispositivo de fregadero 3200 está diseñado para mostrar imágenes en miniatura en los metadatos de los contenidos recibidos desde dispositivos fuente conectados a través de una interfaz de cable integrada. Como se menciona en la descripción anterior, si un control remoto 3250 capaz de emitir una señal de puntero está situado dentro de una región de una imagen en miniatura específica 3260 se muestra información adicional como Amanda primer álbum cantante. etc.',
'El método de cualquiera de las reivindicaciones 8 a 12, en donde la solicitud de información del canal de transmisión comprende la transmisión al servidor de datos de imagen obtenidos al capturar el contenido reproducido por el aparato de visualización o datos de audio obtenidos al grabar el contenido durante un cierto tiempo.',
'El conjunto de electrodos de cualquiera de las reivindicaciones precedentes, en donde el primer electrodo comprende un sustrato 113 en donde la primera capa de material activo comprende capas de material activo 112 en ambas superficies del sustrato y la capa cerámica comprende capas de material cerámico 50 en ambas superficies del sustrato.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Obtener las puntuaciones de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Funcionalidades
- Modelo Transformer de Oraciones
- Longitud Máxima de Secuencias: 512 tokens
- Dimensionalidad de Salida: 768 tokens
- Función de Similitud: Similitud de Coseno
- Licencia: apache-2.0
- Lenguaje: Inglés
Casos de uso
- Similitud textual semántica
- Búsqueda semántica
- Minado de paráfrasis
- Clasificación de texto
- Agrupación