mradermacher/Janus-Pro-7B-GGUF

mradermacher

Texto a imagen

Cuantización GGUF de Janus-Pro-7B, basada en deepseek-community/Janus-Pro-7B. Es un modelo multimodal unificado de 7B parámetros orientado a generación texto-a-imagen y uso conversacional, empaquetado para ejecución local con llama.cpp, llama-cpp-python, Ollama, LM Studio, Jan y herramientas compatibles con GGUF. Incluye variantes cuantizadas desde Q2_K hasta Q8_0 y f16, además de archivos mmproj para soporte multimodal.

Como usar

Uso con Transformers:
# Load model directly
from transformers import AutoModel
model = AutoModel.from_pretrained("mradermacher/Janus-Pro-7B-GGUF", dtype="auto")

Uso con llama-cpp-python:
# !pip install llama-cpp-python
from llama_cpp import Llama
llm = Llama.from_pretrained(
    repo_id="mradermacher/Janus-Pro-7B-GGUF",
    filename="Janus-Pro-7B.IQ4_XS.gguf",
)
llm.create_chat_completion(
    messages = "\"Astronaut riding a horse\""
)

Uso con llama.cpp:
brew install llama.cpp
llama-server -hf mradermacher/Janus-Pro-7B-GGUF:Q4_K_M
llama-cli -hf mradermacher/Janus-Pro-7B-GGUF:Q4_K_M

Compilación desde código fuente:
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build -j --target llama-server llama-cli
./build/bin/llama-server -hf mradermacher/Janus-Pro-7B-GGUF:Q4_K_M
./build/bin/llama-cli -hf mradermacher/Janus-Pro-7B-GGUF:Q4_K_M

Uso con Docker Model Runner:
docker model run hf.co/mradermacher/Janus-Pro-7B-GGUF:Q4_K_M

Uso con Ollama:
ollama run hf.co/mradermacher/Janus-Pro-7B-GGUF:Q4_K_M

Uso con Unsloth Studio:
curl -fsSL https://unsloth.ai/install.sh | sh
unsloth studio -H 0.0.0.0 -p 8888

Uso con Lemonade:
lemonade pull mradermacher/Janus-Pro-7B-GGUF:Q4_K_M
lemonade run user.Janus-Pro-7B-GGUF-Q4_K_M
lemonade list

Funcionalidades

Modelo GGUF cuantizado de Janus-Pro-7B con arquitectura tipo llama.
Tamaño del modelo: 7B parámetros.
Tarea principal indicada: texto-a-imagen; también aparece etiquetado como multimodal, unified-model y conversational.
Licencia MIT.
Incluye múltiples cuantizaciones: Q2_K, Q3_K_S, Q3_K_M, Q3_K_L, IQ4_XS, Q4_K_S, Q4_K_M, Q5_K_S, Q5_K_M, Q6_K, Q8_0 y f16.
Q4_K_S y Q4_K_M se señalan como opciones rápidas y recomendadas; Q8_0 como rápida y de mejor calidad; f16 como 16 bpw y probablemente excesiva para muchos usos.
Incluye suplementos multimodales mmproj-Q8_0 y mmproj-f16.
No está desplegado en proveedores de inferencia de Hugging Face en la página proporcionada.

Casos de uso

Ejecutar Janus-Pro-7B localmente en formato GGUF sin depender de un proveedor de inferencia alojado.
Probar generación texto-a-imagen con distintas cuantizaciones según memoria disponible y calidad deseada.
Servir el modelo mediante un servidor local compatible con la API de OpenAI usando llama.cpp.
Usar el modelo en aplicaciones locales como Ollama, LM Studio, Jan, Unsloth Studio o Lemonade.
Comparar variantes cuantizadas, por ejemplo Q4_K_M para una opción recomendada y rápida, Q6_K o Q8_0 para más calidad, y Q2_K/Q3 para menor tamaño.