Llama2 13B Guanaco QLoRA - GGUF

TheBloke
Clasificación de texto

Este repositorio contiene archivos de modelo en formato GGUF para el Llama2 13B Guanaco QLoRA de Mikael10. Muchas gracias a William Beauchamp de Chai por proporcionar el hardware utilizado para crear y subir estos archivos!

Como usar

Modo de uso

Puede usar modelos GGUF desde Python utilizando las bibliotecas llama-cpp-python o ctransformers.

Cómo cargar este modelo desde Python usando ctransformers

from ctransformers import AutoModelForCausalLM

# Establezca gpu_layers al número de capas a descargar a GPU. Establezca en 0 si no hay aceleración de GPU disponible en su sistema.
llm = AutoModelForCausalLM.from_pretrained("TheBloke/llama-2-13B-Guanaco-QLoRA-GGUF", model_file="llama-2-13b-guanaco-qlora.q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("La inteligencia artificial va a"))

Cómo descargar archivos GGUF

Ejecute el siguiente comando para descargar un archivo de modelo individual en el directorio actual con alta velocidad:

huggingface-cli download TheBloke/llama-2-13B-Guanaco-QLoRA-GGUF llama-2-13b-guanaco-qlora.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Ejemplo de comando llama.cpp

./main -ngl 32 -m llama-2-13b-guanaco-qlora.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "### Human: {prompt}
### Assistant:"

Cómo usar en text-generation-webui

Bajo Descargar Modelo, ingrese el repositorio del modelo: TheBloke/llama-2-13B-Guanaco-QLoRA-GGUF y luego, un nombre de archivo específico para descargar, como:

llama-2-13b-guanaco-qlora.q4_K_M.gguf

Luego haga clic en Descargar.

Compatibilidad

Estos archivos GGUFv2 cuantificados son compatibles con llama.cpp a partir del 27 de agosto, como se ve en el commit d0cee0d36d5be95a0d9088b674dbb27354107221. También son compatibles con muchas interfaces de usuario y bibliotecas de terceros.

Funcionalidades

Compatibilidad con llama.cpp a partir del 27 de agosto de 2023
Soporte para múltiples métodos de cuantización
Compatible con muchas interfaces de usuario y bibliotecas de terceros
Compatibilidad con tokenización avanzada y tokens especiales
Soporte para aceleración GPU

Casos de uso

Generación de texto
Clasificación de texto
Chat basado en IA
Desarrollar aplicaciones de soporte con lenguaje natural
Integración en aplicaciones como LangChain