gte-small-zh
towing
Similitud de oraciones
Modelos de Embedding de Texto General (GTE). Hacia Embeddings de Texto General con Aprendizaje Contrastivo Multietapa. Los modelos GTE son entrenados por Alibaba DAMO Academy. Están basados principalmente en el marco BERT y actualmente ofrecen diferentes tamaños de modelos tanto para los idiomas chino como inglés. Los modelos GTE se entrenan en un gran corpus de pares de textos relevantes, que cubren una amplia gama de dominios y escenarios. Esto permite que los modelos GTE se apliquen a diversas tareas posteriores de embeddings de texto, incluyendo recuperación de información, similitud semántica textual, reordenamiento de texto, etc.
Como usar
import torch.nn.functional as F
from torch import Tensor
from transformers import AutoTokenizer, AutoModel
input_texts = [
"中国的首都是哪里",
"你喜欢去哪里旅游",
"北京",
"今天中午吃什么"
]
tokenizer = AutoTokenizer.from_pretrained("thenlper/gte-small-zh")
model = AutoModel.from_pretrained("thenlper/gte-small-zh")
# Tokenizar los textos de entrada
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')
outputs = model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0]
# (Opcional) normalizar los embeddings
embeddings = F.normalize(embeddings, p=2, dim=1)
scores = (embeddings[:1] @ embeddings[1:].T) * 100
print(scores.tolist())
# Uso con sentence-transformers
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
sentences = ['That is a happy person', 'That is a very happy person']
model = SentenceTransformer('thenlper/gte-small-zh')
embeddings = model.encode(sentences)
print(cos_sim(embeddings[0], embeddings[1]))
Funcionalidades
- Transformado y cuantizado de thenlper/gte-small-zh
- Modelo ONNX para su uso con transformer.js
- Pre-entrenado en un gran corpus de pares de textos relevantes
- Basado en el marco BERT
Casos de uso
- Recuperación de información
- Similitud semántica textual
- Reordenamiento de texto