LinkTransformer

dell-research-harvard

Similitud de oraciones

Este es un modelo LinkTransformer. En su núcleo, este modelo es un modelo de transformadores de oraciones de sentence-transformers; simplemente envuelve la clase. Está diseñado para la vinculación rápida y fácil de registros (coincidencia de entidades) a través del paquete LinkTransformer. Las tareas incluyen clustering, deduplicación, vinculación, agregación y más. A pesar de eso, también puede ser utilizado para cualquier tarea de similitud de oraciones dentro del marco de sentence-transformers. Mapea oraciones y párrafos a un espacio vectorial denso de 1024 dimensiones y puede utilizarse para tareas como clustering o búsqueda semántica. Consulte la documentación de sentence-transformers si desea utilizar este modelo para más de lo que soportamos en nuestras aplicaciones. Este modelo ha sido afinado en el modelo: Sahajtomar/German-semantic. Está preentrenado para el idioma: - de. Este modelo fue entrenado en un conjunto de datos que consiste en alias de empresas de wikidata utilizando el framework LinkTransformer. Fue entrenado por 100 epochs utilizando otros valores predeterminados que se pueden encontrar en el archivo de configuración LinkTransformer del repositorio - LT_training_config.json.

Como usar

Usar este modelo se vuelve fácil cuando tienes instalado LinkTransformer:
pip install -U linktransformer

Luego puedes usar el modelo así:
import linktransformer as lt
import pandas as pd

## Cargar los dos dataframes que quieres vincular. Por ejemplo, 2 dataframes con nombres de empresas que se escriben de manera diferente
df1=pd.read_csv("data/df1.csv") ### Este es el dataframe izquierdo con la clave CompanyName, por ejemplo
df2=pd.read_csv("data/df2.csv") ### Este es el dataframe derecho con la clave CompanyName, por ejemplo

### ¡Combina los dos dataframes en la columna clave!
df_merged = lt.merge(df1, df2, on="CompanyName", how="inner")

## ¡Hecho! El dataframe combinado tiene una columna llamada "score" que contiene la puntuación de similitud entre los dos nombres de empresas

Entrenando tu propio modelo LinkTransformer: Cualquier transformador de oraciones se puede usar como columna vertebral simplemente agregando una capa de agrupamiento. También se puede usar cualquier otro transformador en HuggingFace especificando la opción add_pooling_layer==True. El modelo fue entrenado usando la pérdida SupCon. El uso se puede encontrar en la documentación del paquete. La configuración de entrenamiento se puede encontrar en el repositorio con el nombre LT_training_config.json. Para replicar el entrenamiento, puedes descargar el archivo y especificar la ruta en el argumento config_path de la función de entrenamiento. También puedes sobrescribir la configuración especificando el argumento training_args.

Funcionalidades

Clustering
Deduplicación
Vinculación
Agregación
Similitud de oraciones

Casos de uso

Vinculación de registros
Deduplicación de datos
Clustering de datos
Búsqueda semántica