jangedoo/all-MiniLM-L6-v2-nepali

jangedoo

Similitud de oraciones

Este es un modelo de sentence-transformers ajustado a partir del modelo sentence-transformers/all-MiniLM-L6-v2 utilizando los conjuntos de datos momo22/eng2nep, NepaliAI/Nepali-Health-Fact, wikimedia/wikipedia y wisewizer/nepali-news. El modelo mapea oraciones y párrafos a un espacio vectorial denso de 384 dimensiones y puede usarse para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de textos, agrupamiento y más. La aproximación consistió en dos pasos: primero se tomó el modelo sentence-transformers/all-MiniLM-L6-v2 y se convirtió en multilingüe (inglés y nepalí) usando distilación de conocimiento con un corpus paralelo, luego se afinó adicionalmente con artículos de Wikipedia en nepalí, noticias en nepalí y preguntas y respuestas en salud del nepalí.

Como usar

Primero instala la librería de sentence-transformers:
pip install -U sentence-transformers

Luego puedes cargar este modelo y ejecutar inferencias.
from sentence_transformers import SentenceTransformer

# Descargar desde el Hub de 🤗
model = SentenceTransformer("jangedoo/all-MiniLM-L6-v2-nepali")
# Ejecutar inferencias
sentences = [
    'अर्थवेद',
    'अर्थवेद\nचार वेदका चार उपवेद मानिन्छ-\nधनुर्वेद, \nगान्धर्ववेद, \nआयुर्वेद, र \nअर्थवेद \nपं. धनराज शास्त्रीले अर्थवेदका चार ठूला र दुइ ाना ग्रन्थको उल्लेख गरेका छन्\n\nठूला ग्रन्थ\nचार ठूला ग्रन्थ यस प्रकार छन् \n १. अर्थोपवेद– यसको श्लोक संख्या एक लाख बताइएको छ । \n २.अर्थवेद– यसको श्लोक संख्या ३० हजार बताइएको छ । \n ३. अर्थ चन्द्रोदय– यसको श्लोक संख्या २० हजार बताइएको छ ।',
    'डा. फेल, डिटेक्टिभ, एन्ड अदर स्टोरिज अमेरिकन उपन्यासकार तथा लेखक जोन डिक्सन कारद्वारा लिखित लघुकथा सङ्ग्रह हो । \n\nसन्दर्भ सूची\n\nलघुकथा संग्रहहरू\nपुस्तकहरू\nजोन डिक्सन कारका लघुकथा संग्रहहरू',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Obtener las puntuaciones de similitud para los embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Funcionalidades

Transformador de frases
Multilingüe (inglés y nepalí)
Longitud máxima de secuencia de 256 tokens
Dimensionalidad de salida de 384 tokens
Función de similitud: Cosine Similarity
Ajustado con MultipleNegativesSymmetricRankingLoss y MSELoss

Casos de uso

Similitud textual semántica
Búsqueda semántica
Minería de paráfrasis
Clasificación de textos
Agrupamiento