dangvantuan/french-embedding-LongContext

dangvantuan

Similitud de oraciones

french-embedding-LongContext es el Modelo de Embedding para el idioma francés con una longitud de contexto de hasta 8096 tokens. Este modelo es un text-embedding especializado entrenado específicamente para el idioma francés, el cual está basado en gte-multilingual y entrenado usando las pérdidas Multi-Negative Ranking Loss, Matryoshka2dLoss y SimilarityLoss.

Como usar

Usar este modelo es fácil cuando tienes sentence-transformers instalado:
pip install -U sentence-transformers

Entonces puedes usar el modelo de esta manera:
from sentence_transformers import SentenceTransformer
sentences = ["Paris est une capitale de la France", "Les Jeux olympiques de 2024 auront lieu à Paris"]

model = SentenceTransformer('dangvantuan/french-embedding-LongContext', trust_remote_code=True)
embeddings = model.encode(sentences)
print(embeddings)

Funcionalidades

Modelo de Embedding para el idioma francés
Longitud de contexto de hasta 8096 tokens
Basado en gte-multilingual
Entrenado usando Multi-Negative Ranking Loss, Matryoshka2dLoss y SimilarityLoss
Compatible con AutoTrain
Compatible con Endpoints de Inferencia

Casos de uso

Generación de embeddings precisos y contextualmente relevantes para el idioma francés
Análisis de similitud entre frases en francés
Extracción de características lingüísticas en francés
Aplicaciones bilingües para el francés