miniDense_hindi_v1
prithivida
Similitud de oraciones
MiniDense es una familia de recuperadores multilingües de baja huella diseñados para búsquedas y pipelines de Generación de Respuestas Automáticas (RAG). El modelo está optimizado para tareas de recuperación y es compatible con transformadores de Hugging Face y transformadores de oraciones, ofreciendo embeddings textuales de alta calidad sin la necesidad de pre-entrenamiento o afinado costoso. La innovación radica en su capacidad para servir modelos de alta calidad con un vocabulario amplio (alrededor de 250K) y almacenamiento de embeddings más económico.
Como usar
Uso con Sentence Transformers:
from sentence_transformers import SentenceTransformer
import scipy.spatial
model = SentenceTransformer('prithivida/miniMiracle_hi_v1')
corpus = [
'एक आदमी खाना खा रहा है।',
'लोग ब्रेड का एक टुकड़ा खा रहे हैं।',
'लड़की एक बच्चे को उठाए हुए है।',
'एक आदमी घोड़े पर सवार है।',
'एक महिला वायलिन बजा रही है।',
'दो आदमी जंगल में गाड़ी धकेल रहे हैं।',
'एक आदमी एक सफेद घोड़े पर एक बंद मैदान में सवारी कर रहा है।',
'एक बंदर ड्रम बजा रहा है।',
'एक चीता अपने शिकार के पीछे दौड़ रहा है।',
'एक बड़ा डिनर है।'
]
corpus_embeddings = model.encode(corpus)
queries = [
'एक आदमी पास्ता खा रहा है।',
'एक गोरिल्ला सूट पहने व्यक्ति ड्रम बजा रहा है।'
]
query_embeddings = model.encode(queries)
# Encuentra las 3 oraciones más cercanas del corpus para cada oración de consulta basada en la similitud coseno
closest_n = 3
for query, query_embedding in zip(queries, query_embeddings):
distances = scipy.spatial.distance.cdist([query_embedding], corpus_embeddings, "cosine")[0]
results = zip(range(len(distances)), distances)
results = sorted(results, key=lambda x: x[1])
print("\n======================\n")
print("Consulta:", query)
print("\nLas 3 oraciones más similares en el corpus:\n")
for idx, distance in results[0:closest_n]:
print(corpus[idx].strip(), "(Puntuación: %.4f)" % (1-distance))
Uso con Huggingface Transformers:
T.B.A
Funcionalidades
- Recuperación de pasajes
- Distilación de conocimiento
- Entrenamiento intermedio
- Embeddings textuales para inferencia
- Compatibilidad con endpoints de inferencia
- Soporte para modelos en PyTorch y ONNX
- Extracción de características
Casos de uso
- Recuperación de información
- Búsqueda y recuperación
- Embeddings textuales
- Sistemas de recomendación
- Análisis semántico de textos