Llama2 70B Guanaco QLoRA - GGUF

TheBloke
Clasificación de texto

Este repositorio contiene archivos de modelo en formato GGUF para el modelo Llama2 70b Guanaco QLoRA de Mikael110. GGUF es un nuevo formato introducido por el equipo de llama.cpp el 21 de agosto de 2023, en reemplazo de GGML. Ofrece numerosas ventajas sobre GGML, como una mejor tokenización y soporte para tokens especiales. También es compatible con metadatos y está diseñado para ser extensible.

Como usar

Uso del modelo en Python usando ctransformers

from ctransformers import AutoModelForCausalLM

# Establecer gpu_layers al número de capas a descargar en la GPU. Establecer en 0 si no hay aceleración GPU disponible en su sistema.
llm = AutoModelForCausalLM.from_pretrained("TheBloke/llama-2-70b-Guanaco-QLoRA-GGUF", model_file="llama-2-70b-guanaco-qlora.q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI va a ser"))

Ejemplo de comando llama.cpp

./main -ngl 32 -m llama-2-70b-guanaco-qlora.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "### Human: {prompt}\n### Assistant:"

Descarga desde la línea de comandos

pip3 install huggingface-hub>=0.17.1
huggingface-cli download TheBloke/llama-2-70b-Guanaco-QLoRA-GGUF llama-2-70b-guanaco-qlora.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Funcionalidades

Compatibilidad con llama.cpp desde el 27 de agosto
Soporte para distintas interfaces de usuario y bibliotecas
Varios métodos de cuantización disponibles
Modelos GGUF de 2, 3, 4, 5, 6 y 8 bits
Formato original fp16 sin cuantizar

Casos de uso

Generación de texto
Clasificación de texto
Interfaz de usuario web para generación de textos con aceleración GPU
Conversaciones basadas en personajes en Faraday.dev
Soporte para LangChain