PEG: Towards Robust Text Retrieval with Progressive Learning

TownsWu
Similitud de oraciones

Proponemos el modelo PEG (una incrustación textual aprendida progresivamente), que ajusta progresivamente los pesos de las muestras que contribuyen a la pérdida dentro de un lote extremadamente grande, basado en los niveles de dificultad de muestras negativas. Hemos reunido una extensa colección de más de 110 millones de datos, que abarcan una amplia gama de campos como conocimiento general, finanzas, turismo, medicina y más. Nuestro informe técnico está disponible en el documento técnico.

Como usar

Instalar transformers:

pip install transformers

Luego cargar el modelo y predecir:

from transformers import AutoModel, AutoTokenizer
import torch

# Cargar modelo desde HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('TownsWu/PEG')
model = AutoModel.from_pretrained('TownsWu/PEG')
sentences = ['如何更换花呗绑定银行卡', '花呗更改绑定银行卡']
# Tokenizar oraciones
inputs = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Calcular incrustaciones de tokens
with torch.no_grad():
    last_hidden_state = model(**inputs, return_dict=True).last_hidden_state
    embeddings = last_hidden_state[:, 0]
print("embeddings:")
print(embeddings)

Funcionalidades

Ajuste progresivo de pesos de muestras
Gestión de conjuntos de datos extremadamente grandes
Aplicación en múltiples campos: conocimiento general, finanzas, turismo, medicina y más

Casos de uso

Recuperación robusta de texto
Extracción de características
Incrustaciones de texto