Llama2 13B Guanaco QLoRA - GGUF
Este repositorio contiene archivos de modelo en formato GGUF para el Llama2 13B Guanaco QLoRA de Mikael10. Muchas gracias a William Beauchamp de Chai por proporcionar el hardware utilizado para crear y subir estos archivos!
Como usar
Modo de uso
Puede usar modelos GGUF desde Python utilizando las bibliotecas llama-cpp-python o ctransformers.
Cómo cargar este modelo desde Python usando ctransformers
from ctransformers import AutoModelForCausalLM
# Establezca gpu_layers al número de capas a descargar a GPU. Establezca en 0 si no hay aceleración de GPU disponible en su sistema.
llm = AutoModelForCausalLM.from_pretrained("TheBloke/llama-2-13B-Guanaco-QLoRA-GGUF", model_file="llama-2-13b-guanaco-qlora.q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("La inteligencia artificial va a"))
Cómo descargar archivos GGUF
Ejecute el siguiente comando para descargar un archivo de modelo individual en el directorio actual con alta velocidad:
huggingface-cli download TheBloke/llama-2-13B-Guanaco-QLoRA-GGUF llama-2-13b-guanaco-qlora.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Ejemplo de comando llama.cpp
./main -ngl 32 -m llama-2-13b-guanaco-qlora.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "### Human: {prompt}
### Assistant:"
Cómo usar en text-generation-webui
Bajo Descargar Modelo, ingrese el repositorio del modelo: TheBloke/llama-2-13B-Guanaco-QLoRA-GGUF y luego, un nombre de archivo específico para descargar, como:
llama-2-13b-guanaco-qlora.q4_K_M.gguf
Luego haga clic en Descargar.
Compatibilidad
Estos archivos GGUFv2 cuantificados son compatibles con llama.cpp a partir del 27 de agosto, como se ve en el commit d0cee0d36d5be95a0d9088b674dbb27354107221. También son compatibles con muchas interfaces de usuario y bibliotecas de terceros.
Funcionalidades
- Compatibilidad con llama.cpp a partir del 27 de agosto de 2023
- Soporte para múltiples métodos de cuantización
- Compatible con muchas interfaces de usuario y bibliotecas de terceros
- Compatibilidad con tokenización avanzada y tokens especiales
- Soporte para aceleración GPU
Casos de uso
- Generación de texto
- Clasificación de texto
- Chat basado en IA
- Desarrollar aplicaciones de soporte con lenguaje natural
- Integración en aplicaciones como LangChain