Jarbas/all-MiniLM-L6-v2-Q4_K_M-GGUF

Jarbas
Similitud de oraciones

Este modelo fue convertido al formato GGUF desde sentence-transformers/all-MiniLM-L6-v2 utilizando llama.cpp a través del espacio GGUF-my-repo de ggml.ai. Consulte la tarjeta de modelo original para más detalles sobre el modelo.

Como usar

Uso con llama.cpp

Instalación

Instale llama.cpp a través de brew (funciona en Mac y Linux)

brew install llama.cpp

CLI:

Ejecute llama.cpp desde la línea de comandos:

llama --hf-repo Jarbas/all-MiniLM-L6-v2-Q4_K_M-GGUF --hf-file all-minilm-l6-v2-q4_k_m.gguf -p "The meaning to life and the universe is"

Servidor:

Ejecute llama-server:

llama-server --hf-repo Jarbas/all-MiniLM-L6-v2-Q4_K_M-GGUF --hf-file all-minilm-l6-v2-q4_k_m.gguf -c 2048

Pasos Alternativos:

  1. Clone el repositorio llama.cpp desde GitHub.
git clone https://github.com/ggerganov/llama.cpp
  1. Muévase al directorio llama.cpp y construya con la bandera LLAMA_CURL=1 junto con otras banderas específicas de hardware (por ejemplo: LLAMA_CUDA=1 para GPUs Nvidia en Linux).
cd llama.cpp && LLAMA_CURL=1 make
  1. Ejecute la inferencia a través del binario principal.
./main --hf-repo Jarbas/all-MiniLM-L6-v2-Q4_K_M-GGUF --hf-file all-minilm-l6-v2-q4_k_m.gguf -p "The meaning to life and the universe is"

O

./server --hf-repo Jarbas/all-MiniLM-L6-v2-Q4_K_M-GGUF --hf-file all-minilm-l6-v2-q4_k_m.gguf -c 2048

Funcionalidades

Transformadores GGUF
Arquitectura BERT
Cuantizado a 4 bits Q4_K_M

Casos de uso

Detección de similitud de oraciones
Extracción de características