Solon-embeddings-base-0.1

OrdalieTech

Similitud de oraciones

Solon Embeddings — Base 0.1 es un modelo de embeddings en francés de código abierto y de última generación. Se ha diseñado para recuperar pasajes y evaluar la similitud de textos. Este modelo forma parte de la biblioteca de transformadores y se ha evaluado en diversos benchmarks de textos en francés. Las instrucciones incluyen añadir 'query' antes de la consulta para mejorar el rendimiento de recuperación, sin necesidad de instrucciones adicionales para pasajes.

Como usar

Instrucciones: Añadir 'query' antes de la consulta para mejorar el rendimiento de recuperación. No se necesitan instrucciones adicionales para pasajes.
# Cómo utilizar Solon-embeddings-base-0.1
from transformers import AutoModel, AutoTokenizer

model_name = 'OrdalieTech/Solon-embeddings-base-0.1'

# Cargar el tokenizador
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Cargar el modelo
auto_model = AutoModel.from_pretrained(model_name)

# Texto de ejemplo
text = "C'est une personne heureuse"

# Tokenizar el texto
inputs = tokenizer(text, return_tensors='pt')

# Obtener embeddings
elem_hidden_states = auto_model(**inputs)

Funcionalidades

Modelo de embeddings en francés de código abierto
Optimizado para la recuperación de pasajes
Basado en la biblioteca de transformadores
Evaluado en diversos benchmarks de textos en francés
Soporte para términos predefinidos como token de máscara, token de fin de secuencia y más
Compatible con safetensors y xlm-roberta

Casos de uso

Clasificación de pasajes
Evaluación de similitud de textos en francés
Clasificación y reranking de textos
Evaluación de intenciones y dominios