dangvantuan/french-embedding-LongContext
dangvantuan
Similitud de oraciones
french-embedding-LongContext es el Modelo de Embedding para el idioma francés con una longitud de contexto de hasta 8096 tokens. Este modelo es un text-embedding especializado entrenado específicamente para el idioma francés, el cual está basado en gte-multilingual y entrenado usando las pérdidas Multi-Negative Ranking Loss, Matryoshka2dLoss y SimilarityLoss.
Como usar
Usar este modelo es fácil cuando tienes sentence-transformers instalado:
pip install -U sentence-transformers
Entonces puedes usar el modelo de esta manera:
from sentence_transformers import SentenceTransformer
sentences = ["Paris est une capitale de la France", "Les Jeux olympiques de 2024 auront lieu à Paris"]
model = SentenceTransformer('dangvantuan/french-embedding-LongContext', trust_remote_code=True)
embeddings = model.encode(sentences)
print(embeddings)
Funcionalidades
- Modelo de Embedding para el idioma francés
- Longitud de contexto de hasta 8096 tokens
- Basado en gte-multilingual
- Entrenado usando Multi-Negative Ranking Loss, Matryoshka2dLoss y SimilarityLoss
- Compatible con AutoTrain
- Compatible con Endpoints de Inferencia
Casos de uso
- Generación de embeddings precisos y contextualmente relevantes para el idioma francés
- Análisis de similitud entre frases en francés
- Extracción de características lingüísticas en francés
- Aplicaciones bilingües para el francés