KeyurRamoliya/gte-Qwen2-7B-instruct-Q4_K_M-GGUF

KeyurRamoliya

Similitud de oraciones

Este modelo se convirtió al formato GGUF desde Alibaba-NLP/gte-Qwen2-7B-instruct usando llama.cpp a través del espacio GGUF-my-repo de ggml.ai.

Como usar

Uso con llama.cpp
Instalar llama.cpp a través de brew (funciona en Mac y Linux)
brew install llama.cpp

Invocar el servidor llama.cpp o el CLI.
CLI:
llama-cli --hf-repo KeyurRamoliya/gte-Qwen2-7B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-7b-instruct-q4_k_m.gguf -p "El significado de la vida y el universo es"

Servidor:
llama-server --hf-repo KeyurRamoliya/gte-Qwen2-7B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-7b-instruct-q4_k_m.gguf -c 2048

Nota: También puede utilizar este punto de control directamente a través de los pasos de uso listados en el repositorio de Llama.cpp.
Paso 1:
Clonar llama.cpp desde GitHub.
git clone https://github.com/ggerganov/llama.cpp

Paso 2:
Moverse a la carpeta llama.cpp y compilarla con la bandera LLAMA_CURL=1 junto con otras banderas específicas de hardware (por ejemplo: LLAMA_CUDA=1 para GPUs Nvidia en Linux).
cd llama.cpp && LLAMA_CURL=1 make

Paso 3:
Ejecutar la inferencia a través del binario principal.
./llama-cli --hf-repo KeyurRamoliya/gte-Qwen2-7B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-7b-instruct-q4_k_m.gguf -p "El significado de la vida y el universo es"

O
./llama-server --hf-repo KeyurRamoliya/gte-Qwen2-7B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-7b-instruct-q4_k_m.gguf -c 2048

Funcionalidades

Tamaño del modelo: 7.61B parámetros
Arquitectura: qwen2
Modelo de 4 bits Q4_K_M
Similitud de Sentencias con Transformers

Casos de uso

Similitud de sentencias
Clasificación de polaridad de Amazon
Clasificación de contrafactuales de Amazon
Clasificación de reseñas de Amazon