T-Blue/tsdae_pro_text2vec

T-Blue

Similitud de oraciones

Este es un modelo de transformers de oraciones afinado a partir de shibing624/text2vec-base-multilingual. Mapea oraciones y párrafos a un espacio vectorial denso de 384 dimensiones y puede ser utilizado para la similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de texto, agrupamiento y más.

Como usar

Para usar este modelo, primero instale la librería de transformers de oraciones:
pip install -U sentence-transformers

Luego puede cargar este modelo y ejecutar inferencias.
from sentence_transformers import SentenceTransformer

# Descargar desde el Hub de 🤗
model = SentenceTransformer("T-Blue/tsdae_pro_text2vec")
# Ejecutar inferencia
oraciones = [
    '𑀠चपच𑀞𑀢𑀟 पच𑀟च ढनबच 𑀱च 𑀟च𑀠ध𑁣ل लच𑀣𑀢𑁦𑀳 𑀲त पच 𑀱च𑀳च𑀯',
    ' च 𑀠चपच𑀞𑀢𑀟 𑀞नल𑁣ढ पच𑀟च ढनबच 𑀱च 𑀞𑁣𑀠च𑀳 𑀟च𑀠ध𑁣ल लच𑀣𑀢𑁦𑀳 𑀲त पच 𑀟च𑀠𑀢ढ𑀢च 𑀱च𑀳च𑀯',
    ' णच𑀟𑀞न𑀟च𑀟 बन𑀟𑀣न𑀠च𑀪 𑀘𑀣𑁦ण𑀣𑁦𑀫 ब𑀢𑀣च 𑀟𑁦 बच ब𑀢𑀣च𑀘𑁦 𑀠च𑀳न णच𑀱च 𑀟च झच𑀪𑀟𑀢 𑀟च 𑀭𑁢 𑀣च 𑀟च 𑀭𑀬 𑀟च चल𑁦धध𑀢𑀟 ढ𑁣न𑀪ब𑁦𑁣𑀢𑀳𑀢𑁦𑀦 𑀱चञच𑀟𑀣च 𑀞𑁦 ञचन𑀞𑁦 𑀣च 𑀤च𑀟𑁦𑀟 𑀣नप𑀳𑁦𑀯',
]
embeddings = model.encode(oraciones)
print(embeddings.shape)
# [3, 384]

# Obtener las puntuaciones de similitud para las incrustaciones
similaridades = model.similarity(embeddings, embeddings)
print(similaridades.shape)
# [3, 3]

Funcionalidades

Máxima longitud de secuencia: 512 tokens
Dimensionalidad de salida: 384 tokens
Función de similitud: Similitud de coseno
Transformador: BertModel
Pooling: Token CLS

Casos de uso

Similitud textual semántica
Búsqueda semántica
Minería de paráfrasis
Clasificación de texto
Agrupamiento