unsloth/FLUX.1-schnell-GGUF

unsloth
Texto a imagen

FLUX.1 [schnell] en formato GGUF es un modelo de texto a imagen de 12.000 millones de parámetros basado en un transformador de flujo rectificado. Está pensado para generar imágenes a partir de descripciones textuales, con cuantizaciones GGUF que facilitan la inferencia local en distintos tamaños de memoria.

Como usar

Puede usarse localmente con ComfyUI o con la biblioteca Diffusers. Para Diffusers, primero instala o actualiza el paquete:

pip install -U diffusers

Después puedes ejecutar el modelo con FluxPipeline:

import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-schnell", torch_dtype=torch.bfloat16)
pipe.enable_model_cpu_offload() #save some VRAM by offloading the model to CPU. Remove this if you have enough GPU power

prompt = "A cat holding a sign that says hello world"
image = pipe(
    prompt,
    guidance_scale=0.0,
    num_inference_steps=4,
    max_sequence_length=256,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-schnell.png")

Funcionalidades

Generación de imágenes desde prompts de texto en inglés.
Calidad de salida avanzada y seguimiento competitivo de instrucciones, comparable con alternativas cerradas según la ficha del modelo.
Generación rápida mediante latent adversarial diffusion distillation, con imágenes de alta calidad en 1 a 4 pasos.
Publicado bajo licencia Apache 2.0 para uso personal, científico y comercial.
Distribución GGUF con múltiples cuantizaciones: 2-bit, 3-bit, 4-bit, 5-bit, 6-bit, 8-bit, BF16 y F16.
Compatible con flujos locales en ComfyUI y con Diffusers mediante FluxPipeline.

Casos de uso

Crear imágenes a partir de descripciones textuales con pocos pasos de inferencia.
Ejecutar generación de imágenes localmente usando pesos cuantizados GGUF.
Integrar FLUX.1 [schnell] en flujos de trabajo visuales con ComfyUI.
Prototipar aplicaciones creativas o comerciales de texto a imagen con Diffusers.
Experimentar con distintas cuantizaciones para ajustar calidad, velocidad y uso de memoria.