calcuis/krea-gguf

calcuis

Texto a imagen

Versión cuantizada en GGUF de Krea basada en FLUX.1-Krea-dev, orientada a generación de imágenes a partir de texto. El repositorio ofrece variantes cuantizadas de distintos tamaños para ejecutar el modelo con Diffusers, gguf-connector o gguf-node/ComfyUI, incluyendo opciones ligeras para reducir tiempos de carga.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "calcuis/krea-gguf",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "a frog holding a sign that says hello world"
image = pipe(prompt).images[0]

Ejemplo avanzado con archivo GGUF, codificador T5 y FluxPipeline:
import torch
from transformers import T5EncoderModel
from diffusers import FluxPipeline, GGUFQuantizationConfig, FluxTransformer2DModel

model_path = "https://huggingface.co/calcuis/krea-gguf/blob/main/flux1-krea-dev-q2_k.gguf"

transformer = FluxTransformer2DModel.from_single_file(
    model_path,
    quantization_config=GGUFQuantizationConfig(compute_dtype=torch.bfloat16),
    torch_dtype=torch.bfloat16,
    config="callgg/krea-decoder",
    subfolder="transformer"
)

text_encoder = T5EncoderModel.from_pretrained(
    "chatpig/t5-v1_1-xxl-encoder-fp32-gguf",
    gguf_file="t5xxl-encoder-fp32-q2_k.gguf",
    torch_dtype=torch.bfloat16
)

pipe = FluxPipeline.from_pretrained(
    "callgg/krea-decoder",
    transformer=transformer,
    text_encoder_2=text_encoder,
    torch_dtype=torch.bfloat16
)

pipe.enable_model_cpu_offload() # could change it to cuda if you have good gpu

prompt = "a pig holding a sign that says hello world"
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=2.5,
).images[0]

image.save("output.png")

Uso con gguf-connector:
ggc k

El conector permite seleccionar un archivo GGUF local, por ejemplo flux-krea-lite-q2_k.gguf, flux-krea-lite-q4_0.gguf o flux-krea-lite-q8_0.gguf.
Uso con gguf-node vía ComfyUI: colocar el modelo Krea en ./ComfyUI/models/diffusion_models, los codificadores clip-l-v2 y t5xxl en ./ComfyUI/models/text_encoders, y el VAE en ./ComfyUI/models/vae.

Funcionalidades

Modelo de texto a imagen basado en la familia FLUX/Krea.
Formato GGUF con múltiples niveles de cuantización, desde variantes de 1 bit hasta BF16, F16 y F32.
Compatible con Diffusers mediante FluxPipeline, GGUFQuantizationConfig y FluxTransformer2DModel.
Puede ejecutarse localmente con gguf-connector seleccionando archivos GGUF disponibles.
Compatible con gguf-node vía ComfyUI usando modelos de difusión, codificadores de texto y VAE externos.
Incluye variantes ligeras experimentales pensadas para operación de 8 pasos y menor tiempo de carga.
Licencia no comercial flux-1-dev-non-commercial-license.

Casos de uso

Generación local de imágenes 1024x1024 a partir de prompts textuales.
Pruebas de variantes GGUF cuantizadas de FLUX.1-Krea-dev con menor consumo de memoria que versiones completas.
Ejecución de pipelines de imagen en Diffusers con offload a CPU o GPU CUDA.
Integración en flujos de ComfyUI mediante gguf-node.
Experimentación con modelos ligeros de 8 pasos para acelerar la carga y la inferencia.
Creación de imágenes estilizadas, escenas complejas, personajes y composiciones descriptivas a partir de prompts en lenguaje natural.