arisylafeta/gte-Qwen2-1.5B-instruct-Q4_0-GGUF

arisylafeta
Similitud de oraciones

Este modelo fue convertido al formato GGUF desde Alibaba-NLP/gte-Qwen2-1.5B-instruct utilizando llama.cpp a través del espacio GGUF-my-repo de ggml.ai.

Como usar

Utiliza llama.cpp

Instalar llama.cpp a través de brew (funciona en Mac y Linux) 
brew install llama.cpp

Invocar el servidor llama.cpp o la CLI. 

CLI:

llama-cli --hf-repo arisylafeta/gte-Qwen2-1.5B-instruct-Q4_0-GGUF --hf-file gte-qwen2-1.5b-instruct-q4_0.gguf -p "The meaning to life and the universe is"

Server:

llama-server --hf-repo arisylafeta/gte-Qwen2-1.5B-instruct-Q4_0-GGUF --hf-file gte-qwen2-1.5b-instruct-q4_0.gguf -c 2048


Nota: También puedes usar este punto de control directamente a través de los pasos de uso listados en el repositorio Llama.cpp.
Paso 1: Clonar llama.cpp desde GitHub.

git clone https://github.com/ggerganov/llama.cpp


Paso 2: Moverse a la carpeta llama.cpp y compilarla con la bandera LLAMA_CURL=1 junto con otras banderas específicas de hardware (por ej: LLAMA_CUDA=1 para GPUs Nvidia en Linux).

cd llama.cpp && LLAMA_CURL=1 make


Paso 3: Ejecutar la inferencia a través del binario principal.

./llama-cli --hf-repo arisylafeta/gte-Qwen2-1.5B-instruct-Q4_0-GGUF --hf-file gte-qwen2-1.5b-instruct-q4_0.gguf -p "The meaning to life and the universe is"

o

./llama-server --hf-repo arisylafeta/gte-Qwen2-1.5B-instruct-Q4_0-GGUF --hf-file gte-qwen2-1.5b-instruct-q4_0.gguf -c 2048

Funcionalidades

Conversión al formato GGUF
Compatibilidad con llama.cpp
Tamaño del modelo: 1.78B parametros
Arquitectura: qwen2 4-bit Q4_0

Casos de uso

Clasificación de textos
Análisis de sentimiento
Clasificación de reseñas de Amazon
Completar frases