jangedoo/all-MiniLM-L6-v2-nepali
Este es un modelo de sentence-transformers ajustado a partir del modelo sentence-transformers/all-MiniLM-L6-v2 utilizando los conjuntos de datos momo22/eng2nep, NepaliAI/Nepali-Health-Fact, wikimedia/wikipedia y wisewizer/nepali-news. El modelo mapea oraciones y párrafos a un espacio vectorial denso de 384 dimensiones y puede usarse para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de textos, agrupamiento y más. La aproximación consistió en dos pasos: primero se tomó el modelo sentence-transformers/all-MiniLM-L6-v2 y se convirtió en multilingüe (inglés y nepalí) usando distilación de conocimiento con un corpus paralelo, luego se afinó adicionalmente con artículos de Wikipedia en nepalí, noticias en nepalí y preguntas y respuestas en salud del nepalí.
Como usar
Primero instala la librería de sentence-transformers:
pip install -U sentence-transformers
Luego puedes cargar este modelo y ejecutar inferencias.
from sentence_transformers import SentenceTransformer
# Descargar desde el Hub de 🤗
model = SentenceTransformer("jangedoo/all-MiniLM-L6-v2-nepali")
# Ejecutar inferencias
sentences = [
'अर्थवेद',
'अर्थवेद\nचार वेदका चार उपवेद मानिन्छ-\nधनुर्वेद, \nगान्धर्ववेद, \nआयुर्वेद, र \nअर्थवेद \nपं. धनराज शास्त्रीले अर्थवेदका चार ठूला र दुइ ाना ग्रन्थको उल्लेख गरेका छन्\n\nठूला ग्रन्थ\nचार ठूला ग्रन्थ यस प्रकार छन् \n १. अर्थोपवेद– यसको श्लोक संख्या एक लाख बताइएको छ । \n २.अर्थवेद– यसको श्लोक संख्या ३० हजार बताइएको छ । \n ३. अर्थ चन्द्रोदय– यसको श्लोक संख्या २० हजार बताइएको छ ।',
'डा. फेल, डिटेक्टिभ, एन्ड अदर स्टोरिज अमेरिकन उपन्यासकार तथा लेखक जोन डिक्सन कारद्वारा लिखित लघुकथा सङ्ग्रह हो । \n\nसन्दर्भ सूची\n\nलघुकथा संग्रहहरू\nपुस्तकहरू\nजोन डिक्सन कारका लघुकथा संग्रहहरू',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]
# Obtener las puntuaciones de similitud para los embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Funcionalidades
- Transformador de frases
- Multilingüe (inglés y nepalí)
- Longitud máxima de secuencia de 256 tokens
- Dimensionalidad de salida de 384 tokens
- Función de similitud: Cosine Similarity
- Ajustado con MultipleNegativesSymmetricRankingLoss y MSELoss
Casos de uso
- Similitud textual semántica
- Búsqueda semántica
- Minería de paráfrasis
- Clasificación de textos
- Agrupamiento