stella-large-zh-v2
infgrad
Similitud de oraciones
stella-large-zh-v2 es un modelo de codificación de texto de propósito general desarrollado por infgrad. Está basado en la arquitectura BERT y está diseñado para tareas de evaluación de similitud de oraciones en chino. Este modelo utiliza un tamaño de 0.65 GB, una dimensión de 1024, y una longitud de secuencia de 1024. No necesita instrucciones adicionales para las tareas de recuperación y está optimizado para la extracción de características.
Como usar
Usar en la biblioteca sentence-transformers
from sentence_transformers import SentenceTransformer
sentences = ["数据1", "数据2"]
model = SentenceTransformer('infgrad/stella-base-zh-v2')
print(model.max_seq_length)
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)
Usar directamente con la biblioteca transformers
from transformers import AutoModel, AutoTokenizer
from sklearn.preprocessing import normalize
model = AutoModel.from_pretrained('infgrad/stella-base-zh-v2')
tokenizer = AutoTokenizer.from_pretrained('infgrad/stella-base-zh-v2')
sentences = ["数据1", "数据ABCDEFGH"]
batch_data = tokenizer(
batch_text_or_text_pairs=sentences,
padding="longest",
return_tensors="pt",
max_length=1024,
truncation=True,
)
attention_mask = batch_data["attention_mask"]
model_output = model(**batch_data)
last_hidden = model_output.last_hidden_state.masked_fill(~attention_mask[..., None].bool(), 0.0)
vectors = last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]
vectors = normalize(vectors, norm="l2", axis=1, )
print(vectors.shape) # 2,768
Funcionalidades
- Codificación de texto de propósito general
- Optimizado para evaluación de similitud de oraciones en chino
- Arquitectura basada en BERT
- No necesita instrucciones adicionales para tareas de recuperación
- Dimensión: 1024
- Longitud de secuencia: 1024
Casos de uso
- Codificación de texto
- Evaluación de similitud de oraciones
- Recuperación de información
- Re-ranking en tareas de búsqueda
- Extracción de características de texto