Marsilia-Embeddings-FR-Base

sujet-ai
Similitud de oraciones

Marsilia-Embeddings-FR-Base es un modelo de embedding en lengua francesa específicamente diseñado para tareas en el dominio financiero. Este modelo sirve como prueba de concepto, demostrando la importancia crítica de ajustar finamente los modelos de embedding para tareas específicas en aplicaciones de Generación Aumentada por Recuperación (RAG). Al enfocarse en el dominio financiero, Marsilia-Embeddings-FR-Base logra un rendimiento que supera incluso a modelos de código cerrado como los embeddings de OpenAI, ofreciendo una solución más rentable. Esto demuestra cómo el ajuste fino dirigido puede mejorar dramáticamente las capacidades de los modelos de código abierto, haciéndolos competitivos e incluso superiores a las alternativas propietarias en dominios especializados.

Como usar

Para usar este modelo con la biblioteca Sentence Transformers:

from sentence_transformers import SentenceTransformer

# Descargar desde el 🤗 Hub
model = SentenceTransformer("sujet-ai/Marsilia-Embeddings-FR-Base")

# Ejecutar inferencia
sentences = [
"Comment les décisions du HCSF et du CERS peuvent-elles influencer les stratégies d'investissement des institutions financières ?",
"Les analyses menées par le HCSF pour la France l'ont conduit à juger les risques faibles et à décider de ne pas activer de coussin contra -cyclique dédié pour ces expositions45. À l'issue de son analyse concernant les pays tiers matériels pour l'Union européenne, le CERS, qui assure la coordination des actions macroprudentielles en Europe, n'a pas recommandé la fixation de taux de coussin contra -cyclique pour les pays tiers. 41 Décision n°D -HCSF -2022 -6 du 27 décembre 2022 r elative au taux du coussin de fonds propres contra -cyclique . 42 Articles 138 et 139 CRD 43 Recommandation du Comit é europ éen du risque syst émique du 11 décembre 2015 sur la reconnaissance et la fixation des taux de coussin contra -cyclique applicables aux expositions à des pays tiers (CERS/2015/1), recommandation B2. 44 En effet, l'art. 139 de CRD dispose que les autorités désignées peuvent adopter un taux de CCyB applicable aux établissements domestiques sur les expositions aux pays tiers dè s lors qu'aucun taux n'a été fixé ou que le taux fixé par l'autorité du pays tiers est jugé insuffisant. 45 Le suivi des risques est réalisé par le CERS quand les pays sont identifiés comme importants au niveau de l'Union européenne.",
"RAPPORT ANNUEL 2023 Haut Conseil de stabilité financière 18 L'encours des dépôts bancaires des SNF est ainsi passé de 689 Md€ fin 2019 à 913 Md€ fin 2022, tandis que la trésorerie totale des SNF est passée de 817 Md€ au T4 2019 à 1 077 Md€ au T4 2022, représentant un peu plus de 50 % de la dette totale des SNF. Pour autant, rapportée au produit intérieur brut (PIB) ou aux résultats des entreprises27, la dynamique de la dette brute des SNF apparaît davantage contenue par rapport au niveau pré -crise. À fin 2022 , l'encours de dette brute consolidée des SNF représentait ainsi 4,8 fois l e résultat annuel des entreprises, contre 4,2 fin 2019 , tandis que la dette brute consolidée des SNF représentait 80,8 % du PIB à fin 2022, contre 73 % à fin 2019. La dette nette consolidée, rapportée au PIB ou mesurée en années de résultats des entreprises, est quant à elle restée stable en 2022, et demeure comparable à sa moyenne sur la période 2010 -2021 (Graphique 18). 27 Mesurés par l' excédent brut d' exploitation (EBE). Graphique 16 – Demande et accès des PME au crédit de trésorerie (%) Graphique 17 – Flux annuels de dette et tréso rerie des entreprises sur la période 2019 - 2022 (Md€) Source : Banque de France. Dernier point : T1 2023. Note de lecture : au T1 2023, 4,8 % des PME interrogées avaient indiqué avoir demandé un crédit de trésorerie et 95,6 % d'entre elles ont obtenu plus de 75 % du montant demandé. Source : Banque de France.
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Obtener los puntajes de similaridad para los embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Funcionalidades

Modelo de tipo Transformador de Oraciones
Idioma: Francés
Modelo base: OrdalieTech/Solon-embeddings-base-0.1
Longitud máxima de secuencia: 512 tokens
Dimensionalidad de salida: 768
Función de similaridad: Similaridad del coseno

Casos de uso

Búsqueda semántica
Agrupación (clustering)
Recuperación de información