gte-base-zh

thenlper
Similitud de oraciones

Modelo de Embeddings de Texto General (GTE). Hacia embeddings de texto general con aprendizaje contrastivo multi-etapa. Los modelos GTE son entrenados por la Academia DAMO de Alibaba. Están basados principalmente en el marco BERT y actualmente ofrecen diferentes tamaños de modelos para los idiomas chino e inglés. Los modelos GTE son entrenados en un corpus a gran escala de pares de texto relevantes, cubriendo una amplia gama de dominios y escenarios. Esto permite que los modelos GTE se apliquen a diversas tareas downstream de embeddings de texto, incluyendo la recuperación de información, la similitud textual semántica, el reranking de texto, etc.

Como usar

Ejemplo de código:

import torch.nn.functional as F
from torch import Tensor
from transformers import AutoTokenizer, AutoModel

input_texts = [
"中国的首都是哪里",
"你喜欢去哪里旅游",
"北京",
"今天中午吃什么"
]

tokenizer = AutoTokenizer.from_pretrained("thenlper/gte-base-zh")
model = AutoModel.from_pretrained("thenlper/gte-base-zh")

# Tokenize the input texts
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')

outputs = model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0]

# (Opcional) normalizar embeddings
embeddings = F.normalize(embeddings, p=2, dim=1)
scores = (embeddings[:1] @ embeddings[1:].T) * 100
print(scores.tolist())

Uso con sentence-transformers:

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

sentences = ['中国的首都是哪里', '中国的首都是北京']

model = SentenceTransformer('thenlper/gte-base-zh')
embeddings = model.encode(sentences)
print(cos_sim(embeddings[0], embeddings[1]))

Funcionalidades

Basado en el marco BERT
Soporta chino e inglés
Entrenado en un corpus a gran escala de pares de texto relevantes
Aplicable a diversas tareas downstream de embeddings de texto
Ofrece diferentes tamaños de modelos

Casos de uso

Recuperación de información
Similitud textual semántica
Reranking de texto