niancheng/gte-Qwen2-1.5B-instruct-Q4_K_M-GGUF
Este modelo fue convertido al formato GGUF desde Alibaba-NLP/gte-Qwen2-1.5B-instruct utilizando llama.cpp a través del espacio GGUF-my-repo de ggml.ai. Este modelo se utiliza para la similitud de sentencias y viene con varias capacidades específicas como transformadores, está optimizado con GGUF y está asociado con el repositorio llama-cpp.
Como usar
Install llama.cpp por medio de brew (funciona en Mac y Linux)
brew install llama.cpp
Invocar el servidor de llama.cpp o la CLI.
CLI:
```shell
llama-cli --hf-repo niancheng/gte-Qwen2-1.5B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-1.5b-instruct-q4_k_m.gguf -p "The meaning to life and the universe is"
Server:
llama-server --hf-repo niancheng/gte-Qwen2-1.5B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-1.5b-instruct-q4_k_m.gguf -c 2048
Nota: También puedes usar este checkpoint directamente a través de los pasos de uso enumerados en el repositorio de Llama.cpp.
Paso 1: Clona llama.cpp desde GitHub.
git clone https://github.com/ggerganov/llama.cpp
Paso 2: Muévete a la carpeta de llama.cpp y compílalo con la bandera LLAMA_CURL=1 junto con otras banderas específicas del hardware (por ejemplo: LLAMA_CUDA=1 para GPUs de Nvidia en Linux).
cd llama.cpp && LLAMA_CURL=1 make
Paso 3: Ejecuta la inferencia a través del binario principal.
./llama-cli --hf-repo niancheng/gte-Qwen2-1.5B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-1.5b-instruct-q4_k_m.gguf -p "The meaning to life and the universe is"
o
./llama-server --hf-repo niancheng/gte-Qwen2-1.5B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-1.5b-instruct-q4_k_m.gguf -c 2048
Funcionalidades
- Similitud de sentencias
- Transformadores
- Optimización GGUF
- Evaluación en varios conjuntos de datos MTEB
Casos de uso
- Clasificación de polaridad de opiniones en Amazon
- Clasificación contrafactual en Amazon
- Clasificación de opiniones en Amazon
- Evaluación en ArguAna