lt-un-data-fine-fine-en
Este es un modelo LinkTransformer. En su núcleo, este modelo es un modelo de transformer de oraciones (sentence-transformers). Está diseñado para la vinculación rápida y fácil de registros (coincidencia de entidades) a través del paquete LinkTransformer. Las tareas incluyen agrupación, deduplicación, vinculación, agregación y más. Sin embargo, también se puede usar para cualquier tarea de similitud de oraciones dentro del marco de trabajo de sentence-transformers. Mapea oraciones y párrafos en un espacio vectorial denso de 768 dimensiones y se puede usar para tareas como la agrupación o la búsqueda semántica. Este modelo ha sido afinado en el modelo multi-qa-mpnet-base-dot-v1. Está preentrenado para el idioma: en. Fue entrenado en un conjunto de datos preparado al vincular clasificaciones de productos de estadísticas de la ONU. Está diseñado para vincular diferentes productos, entrenado en variaciones causadas por la correspondencia a nivel de producto. Fue entrenado durante 100 épocas utilizando otros valores predeterminados que se pueden encontrar en el archivo de configuración de LinkTransformer del repositorio: LT_training_config.json.
Como usar
Usar este modelo es fácil cuando tienes instalado LinkTransformer:
pip install -U linktransformer
Luego puedes usar el modelo así:
import linktransformer as lt
import pandas as pd
# Cargar los dos dataframes que deseas vincular. Por ejemplo, 2 dataframes con nombres de empresas escritos de manera diferente.
df1 = pd.read_csv("data/df1.csv") # Este es el dataframe izquierdo con la clave CompanyName, por ejemplo
df2 = pd.read_csv("data/df2.csv") # Este es el dataframe derecho con la clave CompanyName, por ejemplo
# ¡Fusionar los dos dataframes en la columna clave!
df_merged = lt.merge(df1, df2, on="CompanyName", how="inner")
# ¡Hecho! El dataframe fusionado tiene una columna llamada "score" que contiene la puntuación de similitud entre los dos nombres de empresas.
Citar y autores:
@misc{arora2023linktransformer,
title={LinkTransformer: A Unified Package for Record Linkage with Transformer Language Models},
author={Abhishek Arora and Melissa Dell},
year={2023},
eprint={2309.00789},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Funcionalidades
- Vinculación rápida y fácil de registros
- Agrupación
- Deduplicación
- Vinculación de entidades
- Agregación
- Similitud de oraciones
Casos de uso
- Vinculación de registros (coincidencia de entidades)
- Clustering (agrupación)
- Deduplicación
- Búsqueda semántica