FinLang/finance-embeddings-investopedia

FinLang
Similitud de oraciones

Esta es la incrustación de Investopedia para aplicaciones financieras del equipo FinLang. El modelo está entrenado usando nuestro conjunto de datos financieros de código abierto de https://huggingface.co/datasets/FinLang/investopedia-embedding-dataset. Este es un modelo de incrustación ajustado basado en BAAI/bge-base-en-v1.5. Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede usarse para tareas como agrupamiento o búsqueda semántica en aplicaciones RAG. Este proyecto es solo para fines de investigación. Los conjuntos de datos de terceros pueden estar sujetos a términos y condiciones adicionales bajo sus licencias asociadas.

Como usar

Uso con LLamaIndex

from llama_index.embeddings import HuggingFaceEmbedding
embed_model = HuggingFaceEmbedding(model_name="FinLang/investopedia_embedding")

Uso con Sentence-Transformers

pip install -U sentence-transformers

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('FinLang/investopedia_embedding')
embeddings = model.encode(sentences)
print(embeddings)

Ejemplo de código de prueba:

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("FinLang/investopedia_embedding")

query_1 = "What is a potential concern with allowing someone else to store your cryptocurrency keys, and is it possible to decrypt a private key?"
query_2 = "A potential concern is that the entity holding your keys has control over your cryptocurrency in a custodial relationship. While it is theoretically possible to decrypt a private key, with current technology, it would take centuries or millennia for the 115 quattuorvigintillion possibilities. Most hacks and thefts occur in wallets, where private keys are stored."

embedding_1 = model.encode(query_1)
embedding_2 = model.encode(query_2)
scores = (embedding_1*embedding_2).sum()
print(scores) # 0.862

Funcionalidades

Incrustación de Investopedia para aplicaciones financieras
Modelo ajustado en BAAI/bge-base-en-v1.5
Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones
Usable para tareas como agrupamiento o búsqueda semántica en aplicaciones RAG

Casos de uso

Agrupamiento de datos financieros
Búsqueda semántica en aplicaciones RAG