stella-large-zh-v2

infgrad
Similitud de oraciones

stella-large-zh-v2 es un modelo de codificación de texto de propósito general desarrollado por infgrad. Está basado en la arquitectura BERT y está diseñado para tareas de evaluación de similitud de oraciones en chino. Este modelo utiliza un tamaño de 0.65 GB, una dimensión de 1024, y una longitud de secuencia de 1024. No necesita instrucciones adicionales para las tareas de recuperación y está optimizado para la extracción de características.

Como usar

Usar en la biblioteca sentence-transformers

from sentence_transformers import SentenceTransformer

sentences = ["数据1", "数据2"]
model = SentenceTransformer('infgrad/stella-base-zh-v2')
print(model.max_seq_length)
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

Usar directamente con la biblioteca transformers

from transformers import AutoModel, AutoTokenizer
from sklearn.preprocessing import normalize

model = AutoModel.from_pretrained('infgrad/stella-base-zh-v2')
tokenizer = AutoTokenizer.from_pretrained('infgrad/stella-base-zh-v2')
sentences = ["数据1", "数据ABCDEFGH"]
batch_data = tokenizer(
 batch_text_or_text_pairs=sentences,
 padding="longest",
 return_tensors="pt",
 max_length=1024,
 truncation=True,
)
attention_mask = batch_data["attention_mask"]
model_output = model(**batch_data)
last_hidden = model_output.last_hidden_state.masked_fill(~attention_mask[..., None].bool(), 0.0)
vectors = last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]
vectors = normalize(vectors, norm="l2", axis=1, )
print(vectors.shape) # 2,768

Funcionalidades

Codificación de texto de propósito general
Optimizado para evaluación de similitud de oraciones en chino
Arquitectura basada en BERT
No necesita instrucciones adicionales para tareas de recuperación
Dimensión: 1024
Longitud de secuencia: 1024

Casos de uso

Codificación de texto
Evaluación de similitud de oraciones
Recuperación de información
Re-ranking en tareas de búsqueda
Extracción de características de texto