nazimali/gte-Qwen2-7B-instruct-Q6_K-GGUF

nazimali
Similitud de oraciones

Este es un modelo convertido al formato GGUF desde Alibaba-NLP/gte-Qwen2-7B-instruct usando llama.cpp a través del espacio GGUF-my-repo de ggml.ai. El modelo está optimizado para la similitud de oraciones y tiene diversas evaluaciones de rendimiento.

Como usar

Para usar este modelo con llama.cpp:

Instalar llama.cpp a través de brew (funciona en Mac y Linux):

brew install llama.cpp

Invocar el servidor de llama.cpp o la CLI.

CLI:

llama-cli --hf-repo nazimali/gte-Qwen2-7B-instruct-Q6_K-GGUF --hf-file gte-qwen2-7b-instruct-q6_k.gguf -p "El significado de la vida y el universo es"

Servidor:

llama-server --hf-repo nazimali/gte-Qwen2-7B-instruct-Q6_K-GGUF --hf-file gte-qwen2-7b-instruct-q6_k.gguf -c 2048

Nota: También puedes usar este checkpoint directamente a través de los pasos de uso listados en el repositorio Llama.cpp.

Paso 1: Clonar llama.cpp de GitHub.

git clone https://github.com/ggerganov/llama.cpp

Paso 2: Moverse a la carpeta llama.cpp y construirla con la bandera LLAMA_CURL=1 junto con otras banderas específicas de hardware (por ejemplo, LLAMA_CUDA=1 para GPUs Nvidia en Linux).

cd llama.cpp && LLAMA_CURL=1 make

Paso 3: Ejecutar inferencia a través del binario principal.

./llama-cli --hf-repo nazimali/gte-Qwen2-7B-instruct-Q6_K-GGUF --hf-file gte-qwen2-7b-instruct-q6_k.gguf -p "El significado de la vida y el universo es"

O

./llama-server --hf-repo nazimali/gte-Qwen2-7B-instruct-Q6_K-GGUF --hf-file gte-qwen2-7b-instruct-q6_k.gguf -c 2048

Funcionalidades

Conversión de formato GGUF usando llama.cpp
Diseñado para la similitud de oraciones
Basado en el modelo Alibaba-NLP/gte-Qwen2-7B-instruct
Modelo cuantizado de 6 bits Q6_K
Evaluaciones de rendimiento detalladas

Casos de uso

Clasificación de la polaridad de opiniones de Amazon
Clasificación de revisiones de Amazon
Clasificación contrafactual de Amazon
Similitud de oraciones en diversos contextos