khoj-ai/timely-arctic-small

khoj-ai
Similitud de oraciones

Este es un modelo de transformers de oraciones afinado desde Snowflake/snowflake-arctic-embed-s. Mapea oraciones y párrafos a un espacio vectorial denso de 384 dimensiones y se puede utilizar para la similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de textos, agrupación y más.

Como usar

Uso Directo (Sentence Transformers)

Primero instala la biblioteca de Sentence Transformers:

pip install -U sentence-transformers

Luego puedes cargar este modelo y ejecutar inferencias:

from sentence_transformers import SentenceTransformer

# Descargar desde el Hub de 🤗
model = SentenceTransformer("sentence_transformers_model_id")
# Ejecutar inferencia
sentences = [
    'Representa esta oración para buscar pasajes relevantes: Philadelphia Business Journal 01/30/83',
    'The Philadelphia Business Journal es una empresa de medios de negocios diversificada en Filadelfia, Pensilvania, que publica historias diarias en su sitio web y redes sociales, y una edición semanal disponible en formato impreso y en línea. Es publicada por American City Business Journals. Véase también la lista de periódicos en Pensilvania. Referencias Enlaces externos Periódicos de negocios publicados en los Estados Unidos Periódicos publicados en Filadelfia 30 de enero de 1983',
    '¿Acabas de comprar tu nueva consola Nintendo Wii? ¿Estás molesto porque no puedes obtener Wii Connect 24 en tu país de residencia? ¡Este artículo resolverá este problema, para que puedas navegar por Internet en tu Wii!'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Obtener las puntuaciones de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Funcionalidades

Modelo de transformer de oraciones
Modelo base: Snowflake/snowflake-arctic-embed-s
Longitud máxima de secuencia: 512 tokens
Dimensionalidad de salida: 384 tokens
Función de similitud: Similitud de coseno

Casos de uso

Similitud textual semántica
Búsqueda semántica
Minería de paráfrasis
Clasificación de textos
Agrupación