Solon-embeddings-base-0.1
OrdalieTech
Similitud de oraciones
Solon Embeddings — Base 0.1 es un modelo de embeddings en francés de código abierto y de última generación. Se ha diseñado para recuperar pasajes y evaluar la similitud de textos. Este modelo forma parte de la biblioteca de transformadores y se ha evaluado en diversos benchmarks de textos en francés. Las instrucciones incluyen añadir 'query' antes de la consulta para mejorar el rendimiento de recuperación, sin necesidad de instrucciones adicionales para pasajes.
Como usar
Instrucciones: Añadir 'query' antes de la consulta para mejorar el rendimiento de recuperación. No se necesitan instrucciones adicionales para pasajes.
# Cómo utilizar Solon-embeddings-base-0.1
from transformers import AutoModel, AutoTokenizer
model_name = 'OrdalieTech/Solon-embeddings-base-0.1'
# Cargar el tokenizador
tokenizer = AutoTokenizer.from_pretrained(model_name)
# Cargar el modelo
auto_model = AutoModel.from_pretrained(model_name)
# Texto de ejemplo
text = "C'est une personne heureuse"
# Tokenizar el texto
inputs = tokenizer(text, return_tensors='pt')
# Obtener embeddings
elem_hidden_states = auto_model(**inputs)
Funcionalidades
- Modelo de embeddings en francés de código abierto
- Optimizado para la recuperación de pasajes
- Basado en la biblioteca de transformadores
- Evaluado en diversos benchmarks de textos en francés
- Soporte para términos predefinidos como token de máscara, token de fin de secuencia y más
- Compatible con safetensors y xlm-roberta
Casos de uso
- Clasificación de pasajes
- Evaluación de similitud de textos en francés
- Clasificación y reranking de textos
- Evaluación de intenciones y dominios