baconnier/Finance_embedding_large_en-V1.5
baconnier
Similitud de oraciones
Este es un modelo SentenceTransformer ajustado a partir de BAAI/bge-large-en-v1.5 en el conjunto de datos baconnier/finance2_dataset_private. Mapea oraciones y párrafos a un espacio vectorial denso de 1024 dimensiones y se puede usar para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de texto, agrupamiento y más.
Como usar
Primero, instala la librería Sentence Transformers:
pip install -U sentence-transformers
Luego puedes cargar el modelo y ejecutar la inferencia:
from sentence_transformers import SentenceTransformer
# Descargar desde el Hub de 🤗
model = SentenceTransformer("baconnier/Finance_embedding_large_en-V1.5")
# Ejecutar inferencia
sentences = [
'¿Debería John considerar el consejo de su tío sobre invertir en criptomonedas? ¿Por qué o por qué no?',
'El tío de John no es un experto financiero, y la criptomoneda ha experimentado una volatilidad significativa, con precios fluctuando en un 20% o más en un solo día. Invertir en un activo tan volátil puede no alinearse con el objetivo principal de John de maximizar su riqueza a largo plazo. Por lo tanto, John no debería considerar el consejo de su tío sobre invertir en criptomonedas.',
'La unidad de negociación es crucial para que los inversionistas la consideren al colocar órdenes porque impacta directamente en el costo total y en las potenciales ganancias o pérdidas de una transacción. Dado que la unidad de negociación establece la cantidad mínima de acciones que pueden comprarse o venderse, los inversionistas deben asegurarse de que sus órdenes estén en múltiplos de esta unidad. Por ejemplo, si la unidad de negociación es 100 acciones y un inversionista quiere comprar 50 acciones, tendría que redondear a 100 acciones, lo cual incrementa el costo total de la transacción. Comprender la unidad de negociación ayuda a los inversionistas a planificar sus transacciones eficazmente y gestionar su riesgo.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Obtener las puntajes de similitud para los embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Funcionalidades
- Modelo de tipo SentenceTransformer basado en BAAI/bge-large-en-v1.5
- Longitud máxima de secuencia: 512 tokens
- Dimensionalidad de salida: 1024 tokens
- Función de similitud: Similitud Coseno
- Entrenado en el conjunto de datos baconnier/finance2_dataset_private
Casos de uso
- Similitud textual semántica
- Búsqueda semántica
- Minería de paráfrasis
- Clasificación de texto
- Agrupamiento