gte-small-zh

towing

Similitud de oraciones

Modelos de Embedding de Texto General (GTE). Hacia Embeddings de Texto General con Aprendizaje Contrastivo Multietapa. Los modelos GTE son entrenados por Alibaba DAMO Academy. Están basados principalmente en el marco BERT y actualmente ofrecen diferentes tamaños de modelos tanto para los idiomas chino como inglés. Los modelos GTE se entrenan en un gran corpus de pares de textos relevantes, que cubren una amplia gama de dominios y escenarios. Esto permite que los modelos GTE se apliquen a diversas tareas posteriores de embeddings de texto, incluyendo recuperación de información, similitud semántica textual, reordenamiento de texto, etc.

Como usar

import torch.nn.functional as F
from torch import Tensor
from transformers import AutoTokenizer, AutoModel

input_texts = [
"中国的首都是哪里",
"你喜欢去哪里旅游",
"北京",
"今天中午吃什么"
]

tokenizer = AutoTokenizer.from_pretrained("thenlper/gte-small-zh")
model = AutoModel.from_pretrained("thenlper/gte-small-zh")

# Tokenizar los textos de entrada
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')

outputs = model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0]

# (Opcional) normalizar los embeddings
embeddings = F.normalize(embeddings, p=2, dim=1)
scores = (embeddings[:1] @ embeddings[1:].T) * 100
print(scores.tolist())

# Uso con sentence-transformers
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

sentences = ['That is a happy person', 'That is a very happy person']

model = SentenceTransformer('thenlper/gte-small-zh')
embeddings = model.encode(sentences)
print(cos_sim(embeddings[0], embeddings[1]))

Funcionalidades

Transformado y cuantizado de thenlper/gte-small-zh
Modelo ONNX para su uso con transformer.js
Pre-entrenado en un gran corpus de pares de textos relevantes
Basado en el marco BERT

Casos de uso

Recuperación de información
Similitud semántica textual
Reordenamiento de texto