dopeba/gte-Qwen2-1.5B-instruct-Q8_0-GGUF

dopeba

Similitud de oraciones

Este modelo fue convertido al formato GGUF desde Alibaba-NLP/gte-Qwen2-1.5B-instruct usando llama.cpp a través del espacio GGUF-my-repo de ggml.ai. Referirse a la tarjeta del modelo original para más detalles sobre el modelo.

Como usar

Instalar llama.cpp a través de brew (funciona en Mac y Linux):
brew install llama.cpp

Invocar el servidor de llama.cpp o la CLI.
CLI:
llama-cli --hf-repo dopeba/gte-Qwen2-1.5B-instruct-Q8_0-GGUF --hf-file gte-qwen2-1.5b-instruct-q8_0.gguf -p "El significado de la vida y el universo es"

Servidor:
llama-server --hf-repo dopeba/gte-Qwen2-1.5B-instruct-Q8_0-GGUF --hf-file gte-qwen2-1.5b-instruct-q8_0.gguf -c 2048

También puedes usar este checkpoint directamente siguiendo los pasos de uso listados en el repositorio de Llama.cpp:
Paso 1: Clonar llama.cpp desde GitHub.
git clone https://github.com/ggerganov/llama.cpp

Paso 2: Entrar en la carpeta de llama.cpp y construirlo con la bandera LLAMA_CURL=1 junto con otras banderas específicas de hardware (por ejemplo: LLAMA_CUDA=1 para GPUs Nvidia en Linux).
cd llama.cpp && LLAMA_CURL=1 make

Paso 3: Ejecutar la inferencia a través del binario principal.
./llama-cli --hf-repo dopeba/gte-Qwen2-1.5B-instruct-Q8_0-GGUF --hf-file gte-qwen2-1.5b-instruct-q8_0.gguf -p "El significado de la vida y el universo es"

o
./llama-server --hf-repo dopeba/gte-Qwen2-1.5B-instruct-Q8_0-GGUF --hf-file gte-qwen2-1.5b-instruct-q8_0.gguf -c 2048

Funcionalidades

Transformers
Similarity de sentencias
MTEB
Arquitectura Qwen2
Modelo de 8 bits (Q8_0)

Casos de uso

Similitud de sentencias
Clasificación de polaridad en Amazon
Clasificación de comentarios en Amazon
Evaluación de counterfactuals en Amazon
Búsqueda de argumentos