Llama2 70B Guanaco QLoRA - GGUF
TheBloke
Clasificación de texto
Este repositorio contiene archivos de modelo en formato GGUF para el modelo Llama2 70b Guanaco QLoRA de Mikael110. GGUF es un nuevo formato introducido por el equipo de llama.cpp el 21 de agosto de 2023, en reemplazo de GGML. Ofrece numerosas ventajas sobre GGML, como una mejor tokenización y soporte para tokens especiales. También es compatible con metadatos y está diseñado para ser extensible.
Como usar
Uso del modelo en Python usando ctransformers
from ctransformers import AutoModelForCausalLM
# Establecer gpu_layers al número de capas a descargar en la GPU. Establecer en 0 si no hay aceleración GPU disponible en su sistema.
llm = AutoModelForCausalLM.from_pretrained("TheBloke/llama-2-70b-Guanaco-QLoRA-GGUF", model_file="llama-2-70b-guanaco-qlora.q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI va a ser"))
Ejemplo de comando llama.cpp
./main -ngl 32 -m llama-2-70b-guanaco-qlora.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "### Human: {prompt}\n### Assistant:"
Descarga desde la línea de comandos
pip3 install huggingface-hub>=0.17.1
huggingface-cli download TheBloke/llama-2-70b-Guanaco-QLoRA-GGUF llama-2-70b-guanaco-qlora.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Funcionalidades
- Compatibilidad con llama.cpp desde el 27 de agosto
- Soporte para distintas interfaces de usuario y bibliotecas
- Varios métodos de cuantización disponibles
- Modelos GGUF de 2, 3, 4, 5, 6 y 8 bits
- Formato original fp16 sin cuantizar
Casos de uso
- Generación de texto
- Clasificación de texto
- Interfaz de usuario web para generación de textos con aceleración GPU
- Conversaciones basadas en personajes en Faraday.dev
- Soporte para LangChain