unsloth/Qwen-Image-GGUF

unsloth
Texto a imagen

Versión cuantizada en formato GGUF de Qwen-Image, un modelo fundacional de generación y edición de imágenes de 20B parámetros. Usa la metodología Unsloth Dynamic 2.0 para mejorar el rendimiento mediante capas importantes elevadas a mayor precisión. Está orientado a generación texto-a-imagen, edición precisa de imágenes y renderizado complejo de texto, con especial fortaleza en chino y también soporte para inglés.

Como usar

Instala la versión más reciente de diffusers y carga el modelo base Qwen-Image para generar imágenes desde prompts. El modelo GGUF publicado por Unsloth es una variante cuantizada de ese modelo.

pip install git+https://github.com/huggingface/diffusers
from diffusers import DiffusionPipeline
import torch

model_name = "Qwen/Qwen-Image"

# Load the pipeline
if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"

pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)

positive_magic = {
    "en": ", Ultra HD, 4K, cinematic composition.",
    "zh": ", 超清,4K,电影级构图."
}

prompt = '''A coffee shop entrance features a chalkboard sign reading "Qwen Coffee 😊 $2 per cup," with a neon light beside it displaying "通义千问". Next to it hangs a poster showing a beautiful Chinese woman, and beneath the poster is written "π≈3.1415926-53589793-23846264-33832795-02384197". Ultra HD, 4K, cinematic composition'''
negative_prompt = " "

aspect_ratios = {
    "1:1": (1328, 1328),
    "16:9": (1664, 928),
    "9:16": (928, 1664),
    "4:3": (1472, 1140),
    "3:4": (1140, 1472),
    "3:2": (1584, 1056),
    "2:3": (1056, 1584),
}

width, height = aspect_ratios["16:9"]

image = pipe(
    prompt=prompt + positive_magic["en"],
    negative_prompt=negative_prompt,
    width=width,
    height=height,
    num_inference_steps=50,
    true_cfg_scale=4.0,
    generator=torch.Generator(device="cuda").manual_seed(42)
).images[0]

image.save("example.png")

Funcionalidades

Generación de imágenes a partir de prompts en texto.
Renderizado de texto de alta fidelidad dentro de imágenes, especialmente en chino e inglés.
Edición avanzada de imágenes: transferencia de estilo, inserción o eliminación de objetos, mejora de detalles, edición de texto en imágenes y manipulación de pose humana.
Capacidades de comprensión visual aplicables a edición inteligente, como detección de objetos, segmentación semántica, estimación de profundidad, bordes Canny, síntesis de nuevas vistas y superresolución.
Distribución cuantizada GGUF con múltiples variantes de precisión: 2-bit, 3-bit, 4-bit, 5-bit, 6-bit, 8-bit, BF16 y F16.
Licencia Apache 2.0.

Casos de uso

Crear imágenes con texto integrado de forma precisa, como carteles, señales, pósters o composiciones bilingües chino-inglés.
Generar imágenes artísticas o fotorrealistas en distintos estilos, incluyendo anime, pintura impresionista y diseño minimalista.
Editar imágenes con operaciones complejas como cambiar estilos, insertar o quitar objetos, mejorar detalles o modificar texto dentro de la escena.
Construir flujos de creación visual donde el modelo necesite combinar comprensión de lenguaje, composición, tipografía e imagen.
Usar variantes cuantizadas GGUF para ejecutar Qwen-Image con distintos compromisos entre tamaño, precisión y recursos de hardware.