lt-wikidata-comp-en

dell-research-harvard

Similitud de oraciones

Este es un modelo LinkTransformer. En su núcleo, este modelo es un modelo de sentence transformers; simplemente envuelve la clase. Está diseñado para la vinculación rápida y fácil de registros (coincidencia de entidades) a través del paquete LinkTransformer. Las tareas incluyen agrupación, deduplicación, vinculación, agregación y más. No obstante, también se puede utilizar para cualquier tarea de similitud de oraciones dentro del marco de trabajo de sentence-transformers. Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y se puede usar para tareas como agrupación o búsqueda semántica. Este modelo ha sido ajustado a partir del modelo multi-qa-mpnet-base-dot-v1. Está preentrenado para el idioma inglés. El modelo fue entrenado en un conjunto de datos que consiste en alias de compañías de wiki data utilizando el marco LinkTransformer. Fue entrenado durante 100 épocas usando otros valores predeterminados que se pueden encontrar en el archivo de configuración de LinkTransformer del repositorio: LT_training_config.json

Como usar

Usar este modelo es fácil cuando tienes LinkTransformer instalado:
pip install -U linktransformer

Luego puedes usar el modelo así:
import linktransformer as lt
import pandas as pd

# Cargar los dos dataframes que quieres vincular. Por ejemplo, 2 dataframes con nombres de compañías que están escritos de manera diferente
df1=pd.read_csv("data/df1.csv") # Este es el dataframe de la izquierda con la clave CompanyName, por ejemplo
df2=pd.read_csv("data/df2.csv") # Este es el dataframe de la derecha con la clave CompanyName, por ejemplo

# ¡Unir los dos dataframes en la columna clave!
df_merged = lt.merge(df1, df2, on="CompanyName", how="inner")

# ¡Listo! El dataframe unido tiene una columna llamada 'score' que contiene la puntuación de similitud entre los dos nombres de compañías

Citar:
@misc{arora2023linktransformer,
title={LinkTransformer: A Unified Package for Record Linkage with Transformer Language Models},
author={Abhishek Arora and Melissa Dell},
year={2023},
eprint={2309.00789},
archivePrefix={arXiv},
primaryClass={cs.CL}
}

Funcionalidades

Agrupación
Deduplicación
Vinculación
Agregación
Tareas de similitud de oraciones
Búsqueda semántica

Casos de uso

Vinculación de registros
Agrupación de datos
Deduplicación de registros
Búsqueda semántica
Clustering