quarkss/indobert-base-p2-sts-arxiv-id
quarkss
Similitud de oraciones
Este es un modelo de transformer de oraciones afinado a partir del indobenchmark/indobert-base-p2 en los conjuntos de datos stsb y arxiv_paper_cs_id. Transforma oraciones y párrafos en un espacio vectorial denso de 768 dimensiones y se puede utilizar para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de texto, agrupación y más.
Como usar
Para usar este modelo, primero instale la biblioteca de Sentence Transformers:
pip install -U sentence-transformers
Luego puede cargar este modelo y ejecutar inferencia.
from sentence_transformers import SentenceTransformer
# Descargar del Hub de 🤗
model = SentenceTransformer("quarkss/indobert-base-p2-sts-arxiv-id")
# Ejecutar inferencia
sentences = [
'TIDAK ada alasan yang tepat untuk kegagalan penerapan video play dalam sepak bola profesional.',
'Ada masalah lain dengan menerapkan tayangan ulang instan selain dari sekadar mengganggu alur permainan.',
'Seseorang sedang mengebor sebuah lubang pada sepotong kayu.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Obtener los puntajes de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Funcionalidades
- Modelo de transformador de oraciones basado en indobenchmark/indobert-base-p2
- Longitud máxima de secuencia: 512 tokens
- Dimensionalidad de salida: 768 tokens
- Función de similitud: Similitud coseno
Casos de uso
- Similitud textual semántica
- Búsqueda semántica
- Minería de paráfrasis
- Clasificación de textos
- Agrupación de datos