nazimali/gte-Qwen2-7B-instruct-Q6_K-GGUF
Este es un modelo convertido al formato GGUF desde Alibaba-NLP/gte-Qwen2-7B-instruct usando llama.cpp a través del espacio GGUF-my-repo de ggml.ai. El modelo está optimizado para la similitud de oraciones y tiene diversas evaluaciones de rendimiento.
Como usar
Para usar este modelo con llama.cpp:
Instalar llama.cpp a través de brew (funciona en Mac y Linux):
brew install llama.cpp
Invocar el servidor de llama.cpp o la CLI.
CLI:
llama-cli --hf-repo nazimali/gte-Qwen2-7B-instruct-Q6_K-GGUF --hf-file gte-qwen2-7b-instruct-q6_k.gguf -p "El significado de la vida y el universo es"
Servidor:
llama-server --hf-repo nazimali/gte-Qwen2-7B-instruct-Q6_K-GGUF --hf-file gte-qwen2-7b-instruct-q6_k.gguf -c 2048
Nota: También puedes usar este checkpoint directamente a través de los pasos de uso listados en el repositorio Llama.cpp.
Paso 1: Clonar llama.cpp de GitHub.
git clone https://github.com/ggerganov/llama.cpp
Paso 2: Moverse a la carpeta llama.cpp y construirla con la bandera LLAMA_CURL=1 junto con otras banderas específicas de hardware (por ejemplo, LLAMA_CUDA=1 para GPUs Nvidia en Linux).
cd llama.cpp && LLAMA_CURL=1 make
Paso 3: Ejecutar inferencia a través del binario principal.
./llama-cli --hf-repo nazimali/gte-Qwen2-7B-instruct-Q6_K-GGUF --hf-file gte-qwen2-7b-instruct-q6_k.gguf -p "El significado de la vida y el universo es"
O
./llama-server --hf-repo nazimali/gte-Qwen2-7B-instruct-Q6_K-GGUF --hf-file gte-qwen2-7b-instruct-q6_k.gguf -c 2048
Funcionalidades
- Conversión de formato GGUF usando llama.cpp
- Diseñado para la similitud de oraciones
- Basado en el modelo Alibaba-NLP/gte-Qwen2-7B-instruct
- Modelo cuantizado de 6 bits Q6_K
- Evaluaciones de rendimiento detalladas
Casos de uso
- Clasificación de la polaridad de opiniones de Amazon
- Clasificación de revisiones de Amazon
- Clasificación contrafactual de Amazon
- Similitud de oraciones en diversos contextos