PEG: Towards Robust Text Retrieval with Progressive Learning
TownsWu
Similitud de oraciones
Proponemos el modelo PEG (una incrustación textual aprendida progresivamente), que ajusta progresivamente los pesos de las muestras que contribuyen a la pérdida dentro de un lote extremadamente grande, basado en los niveles de dificultad de muestras negativas. Hemos reunido una extensa colección de más de 110 millones de datos, que abarcan una amplia gama de campos como conocimiento general, finanzas, turismo, medicina y más. Nuestro informe técnico está disponible en el documento técnico.
Como usar
Instalar transformers:
pip install transformers
Luego cargar el modelo y predecir:
from transformers import AutoModel, AutoTokenizer
import torch
# Cargar modelo desde HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('TownsWu/PEG')
model = AutoModel.from_pretrained('TownsWu/PEG')
sentences = ['如何更换花呗绑定银行卡', '花呗更改绑定银行卡']
# Tokenizar oraciones
inputs = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
# Calcular incrustaciones de tokens
with torch.no_grad():
last_hidden_state = model(**inputs, return_dict=True).last_hidden_state
embeddings = last_hidden_state[:, 0]
print("embeddings:")
print(embeddings)
Funcionalidades
- Ajuste progresivo de pesos de muestras
- Gestión de conjuntos de datos extremadamente grandes
- Aplicación en múltiples campos: conocimiento general, finanzas, turismo, medicina y más
Casos de uso
- Recuperación robusta de texto
- Extracción de características
- Incrustaciones de texto