gte-Qwen2-7B-instruct-GGUF
KeyurRamoliya
Similitud de oraciones
Este modelo fue convertido al formato GGUF desde Alibaba-NLP/gte-Qwen2-7B-instruct utilizando llama.cpp a través del espacio GGUF-my-repo de ggml.ai. Ofrece similitud de oraciones y puede ser utilizado con la CLI de llama o con el servidor de llama.
Como usar
### Uso con llama.cpp
#### Instalar llama.cpp a través de brew (funciona en Mac y Linux)
brew install llama.cpp
Invocar el servidor de llama.cpp o la CLI.
CLI:
llama-cli --hf-repo KeyurRamoliya/gte-Qwen2-7B-instruct-Q8_0-GGUF --hf-file gte-qwen2-7b-instruct-q8_0.gguf -p "El significado de la vida y el universo es"
Servidor:
llama-server --hf-repo KeyurRamoliya/gte-Qwen2-7B-instruct-Q8_0-GGUF --hf-file gte-qwen2-7b-instruct-q8_0.gguf -c 2048
Otros pasos de uso
- Clone llama.cpp desde GitHub:
git clone https://github.com/ggerganov/llama.cpp
- Muévase a la carpeta de llama.cpp y constrúyalo con la bandera
LLAMA_CURL=1 junto con otras banderas específicas de hardware (por ejemplo, LLAMA_CUDA=1 para GPUs Nvidia en Linux):
cd llama.cpp && LLAMA_CURL=1 make
- Ejecute la inferencia a través del binario principal:
./llama-cli --hf-repo KeyurRamoliya/gte-Qwen2-7B-instruct-Q8_0-GGUF --hf-file gte-qwen2-7b-instruct-q8_0.gguf -p "El significado de la vida y el universo es"
o
./llama-server --hf-repo KeyurRamoliya/gte-Qwen2-7B-instruct-Q8_0-GGUF --hf-file gte-qwen2-7b-instruct-q8_0.gguf -c 2048
Funcionalidades
- Formato GGUF
- Compatibilidad con Transformers y llama.cpp
- Similitud de oraciones
- Compatibilidad con la Inference API para enunciados
- Cuantización en 8-bit (Q8_0)
- Resultados de evaluación disponibles
- Tamaño del modelo: 7.61B parámetros
Casos de uso
- Clasificación de textos
- Clasificación de polaridad en Amazon
- Clasificación de revisiones de Amazon
- Similitud de argumentos