infgrad/stella-base-zh-v3-1792d

infgrad
Similitud de oraciones

Modelo de codificación de texto diseñado para la similitud de oraciones utilizando la biblioteca de PyTorch y sentence-transformers. Es adecuado para la extracción de características y la inferencia de embeddings de texto. Está optimizado para textos en chino y tiene una dimensión de embedding de 1792.

Como usar

Cómo usar el modelo:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('infgrad/stella-base-zh-v3-1792d')
vectors = model.encode(['text1', 'text2'])

Para el modelo de codificación de diálogo:

from sentence_transformers import SentenceTransformer

dial_model = SentenceTransformer('infgrad/stella-dialogue-large-zh-v3-1792d')
general_model = SentenceTransformer('infgrad/stella-large-zh-v3-1792d')
dialogue = ['A: ¿Has ido a jugar baloncesto recientemente?', 'B: No']
corpus = ['B no jugó baloncesto porque estaba lesionado.', 'B no jugó ping-pong.']
last_utterance_vector = dial_model.encode(['[SEP]'.join(dialogue)], normalize_embeddings=True)
corpus_vectors = general_model.encode(corpus, normalize_embeddings=True)
sims = (last_utterance_vector * corpus_vectors).sum(axis=1)
print(sims)

Trucos de entrenamiento de modelos de codificación:

vector_dropout = nn.Dropout1d(0.3)
last_hidden_state = bert_model(...)[0]
last_hidden = last_hidden_state.masked_fill(~attention_mask[..., None].bool(), 0.0)
last_hidden = vector_dropout(last_hidden)
vectors = last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]

Funcionalidades

Similitud de oraciones
Transformadores de oraciones
Pytorch
Extracción de características
Inferencia de embeddings de texto

Casos de uso

Codificación general de textos
Codificación de diálogos
Tareas de búsqueda y coincidencia semántica
Generación de vectores de texto para clasificación y agrupamiento