VenkatNDivi77/gte-Qwen2-7B-instruct-Q4_K_M-GGUF

VenkatNDivi77
Similitud de oraciones

Este modelo fue convertido al formato GGUF desde Alibaba-NLP/gte-Qwen2-7B-instruct utilizando llama.cpp a través del espacio GGUF-my-repo de ggml.ai.

Como usar

Instalar llama.cpp a través de brew (funciona en Mac y Linux)

brew install llama.cpp

Invocar el servidor llama.cpp o el CLI.

CLI:

llama-cli --hf-repo VenkatNDivi77/gte-Qwen2-7B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-7b-instruct-q4_k_m.gguf -p "El significado de la vida y el universo es"

Servidor:

llama-server --hf-repo VenkatNDivi77/gte-Qwen2-7B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-7b-instruct-q4_k_m.gguf -c 2048

También puedes usar este punto de control directamente siguiendo los pasos de uso listados en el repositorio de Llama.cpp.

Paso 1: Clonar llama.cpp desde GitHub.

git clone https://github.com/ggerganov/llama.cpp

Paso 2: Moverse a la carpeta llama.cpp y construirla con la bandera LLAMA_CURL=1 junto con otras banderas específicas de hardware (por ej: LLAMA_CUDA=1 para GPUs Nvidia en Linux).

cd llama.cpp && LLAMA_CURL=1 make

Paso 3: Ejecutar la inferencia a través del binario principal.

./llama-cli --hf-repo VenkatNDivi77/gte-Qwen2-7B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-7b-instruct-q4_k_m.gguf -p "El significado de la vida y el universo es"

O

./llama-server --hf-repo VenkatNDivi77/gte-Qwen2-7B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-7b-instruct-q4_k_m.gguf -c 2048

Descargas en el último mes: 163

Tamaño del modelo GGUF: 7.61B parámetros

Funcionalidades

Similaridad de oraciones
Transformadores
mteb
Qwen2
Función con llama-cpp
Modelo cuantizado en 4-bit Q4_K_M

Casos de uso

Clasificación de polaridad en Amazon
Clasificación de reseñas en Amazon
Clasificación contrafactual en Amazon