BGE base PatentMatch Matryoshka

bhlim
Similitud de oraciones

Este es un modelo de transformadores de oraciones afinado desde el modelo BAAI/bge-base-en-v1.5 en el conjunto de datos bhlim/patentmatch_for_finetuning. Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede usarse para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de texto, agrupación y más.

Como usar

Primero instala la biblioteca Sentence Transformers con el comando:

pip install -U sentence-transformers

Luego, puedes cargar este modelo y ejecutar inferencias con el siguiente código:

from sentence_transformers import SentenceTransformer
# Descargar desde el Hub de 🤗
model = SentenceTransformer("bhlim/bge-base-patentmatch")
# Ejecutar inferencia
sentences = [
    'Refiriéndose a FIG.32 un dispositivo de fregadero 3200 está diseñado para mostrar imágenes en miniatura en los metadatos de los contenidos recibidos desde dispositivos fuente conectados a través de una interfaz de cable integrada. Como se menciona en la descripción anterior, si un control remoto 3250 capaz de emitir una señal de puntero está situado dentro de una región de una imagen en miniatura específica 3260 se muestra información adicional como Amanda primer álbum cantante. etc.',
    'El método de cualquiera de las reivindicaciones 8 a 12, en donde la solicitud de información del canal de transmisión comprende la transmisión al servidor de datos de imagen obtenidos al capturar el contenido reproducido por el aparato de visualización o datos de audio obtenidos al grabar el contenido durante un cierto tiempo.',
    'El conjunto de electrodos de cualquiera de las reivindicaciones precedentes, en donde el primer electrodo comprende un sustrato 113 en donde la primera capa de material activo comprende capas de material activo 112 en ambas superficies del sustrato y la capa cerámica comprende capas de material cerámico 50 en ambas superficies del sustrato.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Obtener las puntuaciones de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Funcionalidades

Modelo Transformer de Oraciones
Longitud Máxima de Secuencias: 512 tokens
Dimensionalidad de Salida: 768 tokens
Función de Similitud: Similitud de Coseno
Licencia: apache-2.0
Lenguaje: Inglés

Casos de uso

Similitud textual semántica
Búsqueda semántica
Minado de paráfrasis
Clasificación de texto
Agrupación