niancheng/gte-Qwen2-7B-instruct-Q4_K_M-GGUF

niancheng
Similitud de oraciones

Este modelo fue convertido al formato GGUF desde Alibaba-NLP/gte-Qwen2-7B-instruct usando llama.cpp a través del espacio GGUF-my-repo de ggml.ai. Consulta la tarjeta del modelo original para más detalles sobre el modelo.

Como usar

Instalar llama.cpp a través de brew (funciona en Mac y Linux):

brew install llama.cpp

Invocar el servidor llama.cpp o la CLI:

CLI:

llama-cli --hf-repo niancheng/gte-Qwen2-7B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-7b-instruct-q4_k_m.gguf -p "The meaning to life and the universe is"

Servidor:

llama-server --hf-repo niancheng/gte-Qwen2-7B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-7b-instruct-q4_k_m.gguf -c 2048

Clonar llama.cpp desde GitHub y construirlo:

Paso 1: Clone llama.cpp desde GitHub.

git clone https://github.com/ggerganov/llama.cpp

Paso 2: Muévase a la carpeta de llama.cpp y construyalo con la bandera LLAMA_CURL=1 y otras banderas específicas de hardware (por ejemplo: LLAMA_CUDA=1 para GPUs Nvidia en Linux):

cd llama.cpp && LLAMA_CURL=1 make

Paso 3: Ejecute la inferencia a través del binario principal:

./llama-cli --hf-repo niancheng/gte-Qwen2-7B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-7b-instruct-q4_k_m.gguf -p "The meaning to life and the universe is"

O

./llama-server --hf-repo niancheng/gte-Qwen2-7B-instruct-Q4_K_M-GGUF --hf-file gte-qwen2-7b-instruct-q4_k_m.gguf -c 2048

Funcionalidades

Tamaño del modelo GGUF: 7.61B parámetros
Arquitectura: qwen2 con 4-bit Q4_K_M
Similaridad de oraciones
Compatible con transformers y llama-cpp
Resultados de evaluación en varios conjuntos de prueba

Casos de uso

Clasificación de opiniones de Amazon
Clasificación de polaridad de opiniones de Amazon
Clasificación contrafactual de Amazon