miniDense_hindi_v1

prithivida
Similitud de oraciones

MiniDense es una familia de recuperadores multilingües de baja huella diseñados para búsquedas y pipelines de Generación de Respuestas Automáticas (RAG). El modelo está optimizado para tareas de recuperación y es compatible con transformadores de Hugging Face y transformadores de oraciones, ofreciendo embeddings textuales de alta calidad sin la necesidad de pre-entrenamiento o afinado costoso. La innovación radica en su capacidad para servir modelos de alta calidad con un vocabulario amplio (alrededor de 250K) y almacenamiento de embeddings más económico.

Como usar

Uso con Sentence Transformers:

from sentence_transformers import SentenceTransformer
import scipy.spatial

model = SentenceTransformer('prithivida/miniMiracle_hi_v1')

corpus = [
'एक आदमी खाना खा रहा है।',
'लोग ब्रेड का एक टुकड़ा खा रहे हैं।',
'लड़की एक बच्चे को उठाए हुए है।',
'एक आदमी घोड़े पर सवार है।',
'एक महिला वायलिन बजा रही है।',
'दो आदमी जंगल में गाड़ी धकेल रहे हैं।',
'एक आदमी एक सफेद घोड़े पर एक बंद मैदान में सवारी कर रहा है।',
'एक बंदर ड्रम बजा रहा है।',
'एक चीता अपने शिकार के पीछे दौड़ रहा है।',
'एक बड़ा डिनर है।'
]

corpus_embeddings = model.encode(corpus)

queries = [
'एक आदमी पास्ता खा रहा है।',
'एक गोरिल्ला सूट पहने व्यक्ति ड्रम बजा रहा है।'
]

query_embeddings = model.encode(queries)

# Encuentra las 3 oraciones más cercanas del corpus para cada oración de consulta basada en la similitud coseno
closest_n = 3
for query, query_embedding in zip(queries, query_embeddings):
    distances = scipy.spatial.distance.cdist([query_embedding], corpus_embeddings, "cosine")[0]

    results = zip(range(len(distances)), distances)
    results = sorted(results, key=lambda x: x[1])

    print("\n======================\n")
    print("Consulta:", query)
    print("\nLas 3 oraciones más similares en el corpus:\n")

    for idx, distance in results[0:closest_n]:
        print(corpus[idx].strip(), "(Puntuación: %.4f)" % (1-distance))

Uso con Huggingface Transformers:

T.B.A

Funcionalidades

Recuperación de pasajes
Distilación de conocimiento
Entrenamiento intermedio
Embeddings textuales para inferencia
Compatibilidad con endpoints de inferencia
Soporte para modelos en PyTorch y ONNX
Extracción de características

Casos de uso

Recuperación de información
Búsqueda y recuperación
Embeddings textuales
Sistemas de recomendación
Análisis semántico de textos