huoxu/all-MiniLM-L6-v2-Q4_0-GGUF

huoxu
Similitud de oraciones

Este modelo fue convertido al formato GGUF desde sentence-transformers/all-MiniLM-L6-v2 usando llama.cpp a través del espacio GGUF-my-repo de ggml.ai.

Como usar

Uso con llama.cpp

brew install llama.cpp

CLI:

llama-cli --hf-repo huoxu/all-MiniLM-L6-v2-Q4_0-GGUF --hf-file all-minilm-l6-v2-q4_0.gguf -p "El significado de la vida y el universo es"

Server:

llama-server --hf-repo huoxu/all-MiniLM-L6-v2-Q4_0-GGUF --hf-file all-minilm-l6-v2-q4_0.gguf -c 2048

Pasos detallados:

  1. Clonar llama.cpp desde GitHub.
git clone https://github.com/ggerganov/llama.cpp
  1. Moverse a la carpeta de llama.cpp y construirlo con la bandera LLAMA_CURL=1 junto con otras banderas específicas para el hardware (por ejemplo: LLAMA_CUDA=1 para GPUs Nvidia en Linux).
cd llama.cpp && LLAMA_CURL=1 make
  1. Ejecutar inferencia a través del binario principal.
./llama-cli --hf-repo huoxu/all-MiniLM-L6-v2-Q4_0-GGUF --hf-file all-minilm-l6-v2-q4_0.gguf -p "El significado de la vida y el universo es"

O

./llama-server --hf-repo huoxu/all-MiniLM-L6-v2-Q4_0-GGUF --hf-file all-minilm-l6-v2-q4_0.gguf -c 2048

Funcionalidades

Transformers
Afinidad de frases
Extracción de características
Quantización Q4_0

Casos de uso

Afinidad de frases
Extracción de características