kingabzpro/llama-3-8b-chat-doctor-Q4_K_M-GGUF
Este modelo se convirtió al formato GGUF desde kingabzpro/llama-3-8b-chat-doctor utilizando llama.cpp a través del espacio GGUF-my-repo de ggml.ai. Consulte la tarjeta de modelo original para obtener más detalles sobre el modelo.
Como usar
Instalar llama.cpp a través de brew (funciona en Mac y Linux)
brew install llama.cpp
Invocar el servidor llama.cpp o la CLI.
CLI:
llama-cli --hf-repo kingabzpro/llama-3-8b-chat-doctor-Q4_K_M-GGUF --hf-file llama-3-8b-chat-doctor-q4_k_m.gguf -p "El significado de la vida y el universo es"
Servidor:
llama-server --hf-repo kingabzpro/llama-3-8b-chat-doctor-Q4_K_M-GGUF --hf-file llama-3-8b-chat-doctor-q4_k_m.gguf -c 2048
Nota: También puede usar este punto de control directamente a través de los pasos de uso enumerados en el repositorio Llama.cpp.
Paso 1: Clonar llama.cpp desde GitHub.
git clone https://github.com/ggerganov/llama.cpp
Paso 2: Entrar en la carpeta llama.cpp y construirla con la bandera LLAMA_CURL=1 junto con otras banderas específicas de hardware (por ejemplo: LLAMA_CUDA=1 para GPUs Nvidia en Linux).
cd llama.cpp && LLAMA_CURL=1 make
Paso 3: Ejecutar la inferencia a través del binario principal.
./llama-cli --hf-repo kingabzpro/llama-3-8b-chat-doctor-Q4_K_M-GGUF --hf-file llama-3-8b-chat-doctor-q4_k_m.gguf -p "El significado de la vida y el universo es"
O
./llama-server --hf-repo kingabzpro/llama-3-8b-chat-doctor-Q4_K_M-GGUF --hf-file llama-3-8b-chat-doctor-q4_k_m.gguf -c 2048
Funcionalidades
- Formato GGUF
- Modelo cuantizado de 8.03B parámetros
- Arquitectura llama en 4 bits Q4_K_M
- Capacidades de Preguntas y Respuestas
Casos de uso
- Responder preguntas médicas
- Implementar en aplicaciones de atención médica
- Asistir en chatbots médicos