lightfall/Atom-7B-Chat-Q8_0-GGUF

lightfall
Pregunta y respuesta

Este modelo fue convertido al formato GGUF desde FlagAlpha/Atom-7B-Chat utilizando llama.cpp a través del espacio GGUF-my-repo de ggml.ai. Se puede usar con llama.cpp tanto en la CLI como en el servidor.

Como usar

Instalar llama.cpp a través de brew (funciona en Mac y Linux)

brew install llama.cpp

Invocar el servidor o la CLI de llama.cpp.

CLI:

llama-cli --hf-repo lightfall/Atom-7B-Chat-Q8_0-GGUF --hf-file atom-7b-chat-q8_0.gguf -p "The meaning to life and the universe is"

Servidor:

llama-server --hf-repo lightfall/Atom-7B-Chat-Q8_0-GGUF --hf-file atom-7b-chat-q8_0.gguf -c 2048

Nota: También puedes usar este punto de control directamente a través de los pasos de uso listados en el repositorio Llama.cpp.

Paso 1: Clonar llama.cpp desde GitHub.

git clone https://github.com/ggerganov/llama.cpp

Paso 2: Moverse a la carpeta llama.cpp y construirla con la bandera LLAMA_CURL=1 junto con otras banderas específicas del hardware (por ej.: LLAMA_CUDA=1 para GPUs Nvidia en Linux).

cd llama.cpp && LLAMA_CURL=1 make

Paso 3: Ejecutar la inferencia a través del binario principal.

./llama-cli --hf-repo lightfall/Atom-7B-Chat-Q8_0-GGUF --hf-file atom-7b-chat-q8_0.gguf -p "The meaning to life and the universe is"

./llama-server --hf-repo lightfall/Atom-7B-Chat-Q8_0-GGUF --hf-file atom-7b-chat-q8_0.gguf -c 2048

Funcionalidades

Conversión al formato GGUF
Compatibilidad con llama.cpp
Contiene 7.01B parámetros
Arquitectura llama
Modelo en 8 bits (Q8_0)

Casos de uso

Respuesta a preguntas