msyukorai/snowflake-arctic-embed-m-v1.5-Q4_K_M-GGUF

msyukorai

Similitud de oraciones

Este modelo fue convertido al formato GGUF desde Snowflake/snowflake-arctic-embed-m-v1.5 utilizando llama.cpp a través del espacio GGUF-my-repo de ggml.ai. Consulta la tarjeta del modelo original para más detalles sobre el modelo.

Como usar

Instalar llama.cpp a través de brew (funciona en Mac y Linux)
brew install llama.cpp

Invocar el servidor de llama.cpp o la CLI.
CLI:
llama-cli --hf-repo msyukorai/snowflake-arctic-embed-m-v1.5-Q4_K_M-GGUF --hf-file snowflake-arctic-embed-m-v1.5-q4_k_m.gguf -p "The meaning to life and the universe is"

Servidor:
llama-server --hf-repo msyukorai/snowflake-arctic-embed-m-v1.5-Q4_K_M-GGUF --hf-file snowflake-arctic-embed-m-v1.5-q4_k_m.gguf -c 2048

Nota: También puedes usar este checkpoint directamente a través de los pasos de uso listados en el repositorio de Llama.cpp.
Paso 1: Clona llama.cpp desde GitHub.
git clone https://github.com/ggerganov/llama.cpp

Paso 2: Entra en la carpeta llama.cpp y compílalo con el flag LLAMA_CURL=1 junto con otros flags específicos del hardware (por ejemplo: LLAMA_CUDA=1 para GPUs Nvidia en Linux).
cd llama.cpp && LLAMA_CURL=1 make

Paso 3: Ejecuta la inferencia a través del binario principal.
./llama-cli --hf-repo msyukorai/snowflake-arctic-embed-m-v1.5-Q4_K_M-GGUF --hf-file snowflake-arctic-embed-m-v1.5-q4_k_m.gguf -p "The meaning to life and the universe is"

O
./llama-server --hf-repo msyukorai/snowflake-arctic-embed-m-v1.5-Q4_K_M-GGUF --hf-file snowflake-arctic-embed-m-v1.5-q4_k_m.gguf -c 2048

Funcionalidades

Formato GGUF
Transformers.js
Extracción de características
MTEB
Quantización en 4 bits (Q4_K_M)

Casos de uso

Similitud de Sentencias