yishan-wang/snowflake-arctic-embed-m-v1.5-Q8_0-GGUF

yishan-wang

Similitud de oraciones

Este modelo fue convertido al formato GGUF desde Snowflake/snowflake-arctic-embed-m-v1.5 usando llama.cpp a través del espacio GGUF-my-repo de ggml.ai. Consulte la tarjeta del modelo original para más detalles sobre el modelo.

Como usar

Con llama.cpp:
Instalar llama.cpp mediante brew (funciona en Mac y Linux)
brew install llama.cpp

Invocar el servidor llama.cpp o la CLI.

CLI:


llama-cli --hf-repo yishan-wang/snowflake-arctic-embed-m-v1.5-Q8_0-GGUF --hf-file snowflake-arctic-embed-m-v1.5-q8_0.gguf -p "El significado de la vida y el universo es"

Servidor:


llama-server --hf-repo yishan-wang/snowflake-arctic-embed-m-v1.5-Q8_0-GGUF --hf-file snowflake-arctic-embed-m-v1.5-q8_0.gguf -c 2048

Nota: También puedes usar este checkpoint directamente a través de los pasos de uso listados en el repositorio Llama.cpp.

Paso 1: Clonar llama.cpp desde GitHub.


git clone https://github.com/ggerganov/llama.cpp

Paso 2: Moverse a la carpeta llama.cpp y construirla con la bandera LLAMA_CURL=1 junto con otras banderas específicas de hardware (por ejemplo: LLAMA_CUDA=1 para GPUs Nvidia en Linux).


cd llama.cpp && LLAMA_CURL=1 make

Paso 3: Ejecutar la inferencia a través del binario principal.


./llama-cli --hf-repo yishan-wang/snowflake-arctic-embed-m-v1.5-Q8_0-GGUF --hf-file snowflake-arctic-embed-m-v1.5-q8_0.gguf -p "El significado de la vida y el universo es"

O


./llama-server --hf-repo yishan-wang/snowflake-arctic-embed-m-v1.5-Q8_0-GGUF --hf-file snowflake-arctic-embed-m-v1.5-q8_0.gguf -c 2048

Funcionalidades

Conversión al formato GGUF con llama.cpp
Transformers.js
Extracción de características
Evaluación MTEB
Modelo quantizado

Casos de uso

Similitud de oraciones
Evaluaciones de conjuntos de pruebas MTEB
Extracción de características