gte-small-zh
thenlper
Similitud de oraciones
Modelo de Embedding de Texto General (GTE). Hacia embbedings de texto generales con aprendizaje contrastivo multi-etapa. Los modelos GTE son entrenados por Alibaba DAMO Academy. Están principalmente basados en el framework BERT y actualmente ofrecen diferentes tamaños de modelos para los idiomas chino e inglés. Los modelos GTE son entrenados en un corpus a gran escala de pares de textos relevantes, cubriendo una amplia gama de dominios y escenarios. Esto permite que los modelos GTE se apliquen a varias tareas downstream de embeddings de texto, incluyendo recuperación de información, similitud textual semántica, reordenamiento de textos, etc.
Como usar
import torch.nn.functional as F
from torch import Tensor
from transformers import AutoTokenizer, AutoModel
input_texts = [
"中国的首都是哪里",
"你喜欢去哪里旅游",
"北京",
"今天中午吃什么"
]
tokenizer = AutoTokenizer.from_pretrained("thenlper/gte-small-zh")
model = AutoModel.from_pretrained("thenlper/gte-small-zh")
# Tokenize the input texts
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')
outputs = model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0]
# (Optionally) normalize embeddings
embeddings = F.normalize(embeddings, p=2, dim=1)
scores = (embeddings[:1] @ embeddings[1:].T) * 100
print(scores.tolist())
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
sentences = ['That is a happy person', 'That is a very happy person']
model = SentenceTransformer('thenlper/gte-small-zh')
embeddings = model.encode(sentences)
print(cos_sim(embeddings[0], embeddings[1]))
Funcionalidades
- Entrenado por Alibaba DAMO Academy
- Basado en el framework BERT
- Modelos disponibles en varios tamaños para chino e inglés
- Entrenado en un corpus a gran escala de pares de textos relevantes
- Aplicable a tareas como recuperación de información, similitud textual semántica, reordenamiento de textos
Casos de uso
- Recuperación de información
- Similitud textual semántica
- Reordenamiento de textos