mradermacher/Janus-Pro-7B-i1-GGUF

mradermacher
Texto a imagen

Cuantización GGUF con imatrix de Janus-Pro-7B, basada en deepseek-community/Janus-Pro-7B. Es un modelo multimodal de 7B parámetros orientado a generación texto-a-imagen y uso conversacional, preparado para ejecución local con llama.cpp, Ollama, LM Studio, Jan, Unsloth Studio, Docker Model Runner, Lemonade y llama-cpp-python. Esta variante incluye múltiples cuantizaciones IQ y Q en tamaños aproximados de 1,8 GB a 5,8 GB; Q4_K_M aparece como opción rápida y recomendada, mientras que Q4_K_S se presenta como equilibrio óptimo entre tamaño, velocidad y calidad.

Como usar

Uso con Transformers:

# Load model directly
from transformers import AutoModel
model = AutoModel.from_pretrained("mradermacher/Janus-Pro-7B-i1-GGUF", dtype="auto")

Uso con llama-cpp-python:

# !pip install llama-cpp-python
from llama_cpp import Llama

llm = Llama.from_pretrained(
    repo_id="mradermacher/Janus-Pro-7B-i1-GGUF",
    filename="Janus-Pro-7B.i1-IQ1_M.gguf",
)

llm.create_chat_completion(
    messages = "\"Astronaut riding a horse\""
)

Uso con llama.cpp en macOS/Linux vía Homebrew:

brew install llama.cpp

# Start a local OpenAI-compatible server with a web UI:
llama-server -hf mradermacher/Janus-Pro-7B-i1-GGUF:Q4_K_M

# Run inference directly in the terminal:
llama-cli -hf mradermacher/Janus-Pro-7B-i1-GGUF:Q4_K_M

Uso con Ollama:

ollama run hf.co/mradermacher/Janus-Pro-7B-i1-GGUF:Q4_K_M

Uso con Docker Model Runner:

docker model run hf.co/mradermacher/Janus-Pro-7B-i1-GGUF:Q4_K_M

Uso con Unsloth Studio:

curl -fsSL https://unsloth.ai/install.sh | sh
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for mradermacher/Janus-Pro-7B-i1-GGUF to start chatting

Uso con Lemonade:

# Download Lemonade from https://lemonade-server.ai/
lemonade pull mradermacher/Janus-Pro-7B-i1-GGUF:Q4_K_M
lemonade run user.Janus-Pro-7B-i1-GGUF-Q4_K_M
lemonade list

Funcionalidades

Modelo GGUF cuantizado de Janus-Pro-7B con archivos imatrix.
Tamaño de modelo: 7B parámetros.
Arquitectura indicada: llama.
Tarea principal en Hugging Face: texto-a-imagen.
Etiquetas: Transformers, GGUF, English, multimodal, unified-model, imatrix, conversational.
Licencia MIT.
No está desplegado en proveedores de inferencia de Hugging Face.
Incluye muchas variantes: IQ1, IQ2, IQ3, IQ4, Q2_K, Q3_K, Q4, Q5_K y Q6_K.
Los archivos mmproj, si existen, se indican como parte del repositorio estático relacionado.

Casos de uso

Generación texto-a-imagen local con una versión cuantizada de Janus-Pro-7B.
Pruebas conversacionales y multimodales en entornos compatibles con GGUF.
Ejecución local con menor consumo de memoria usando cuantizaciones IQ/Q.
Servir el modelo mediante un servidor local compatible con la API de OpenAI usando llama.cpp.
Comparar variantes de cuantización para equilibrar tamaño, velocidad y calidad.