unsloth/Qwen-Image-GGUF
unsloth
Texto a imagen
Versión cuantizada en formato GGUF de Qwen-Image, un modelo fundacional de generación y edición de imágenes de 20B parámetros. Usa la metodología Unsloth Dynamic 2.0 para mejorar el rendimiento mediante capas importantes elevadas a mayor precisión. Está orientado a generación texto-a-imagen, edición precisa de imágenes y renderizado complejo de texto, con especial fortaleza en chino y también soporte para inglés.
Como usar
Instala la versión más reciente de diffusers y carga el modelo base Qwen-Image para generar imágenes desde prompts. El modelo GGUF publicado por Unsloth es una variante cuantizada de ese modelo.
pip install git+https://github.com/huggingface/diffusers
from diffusers import DiffusionPipeline
import torch
model_name = "Qwen/Qwen-Image"
# Load the pipeline
if torch.cuda.is_available():
torch_dtype = torch.bfloat16
device = "cuda"
else:
torch_dtype = torch.float32
device = "cpu"
pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)
positive_magic = {
"en": ", Ultra HD, 4K, cinematic composition.",
"zh": ", 超清,4K,电影级构图."
}
prompt = '''A coffee shop entrance features a chalkboard sign reading "Qwen Coffee 😊 $2 per cup," with a neon light beside it displaying "通义千问". Next to it hangs a poster showing a beautiful Chinese woman, and beneath the poster is written "π≈3.1415926-53589793-23846264-33832795-02384197". Ultra HD, 4K, cinematic composition'''
negative_prompt = " "
aspect_ratios = {
"1:1": (1328, 1328),
"16:9": (1664, 928),
"9:16": (928, 1664),
"4:3": (1472, 1140),
"3:4": (1140, 1472),
"3:2": (1584, 1056),
"2:3": (1056, 1584),
}
width, height = aspect_ratios["16:9"]
image = pipe(
prompt=prompt + positive_magic["en"],
negative_prompt=negative_prompt,
width=width,
height=height,
num_inference_steps=50,
true_cfg_scale=4.0,
generator=torch.Generator(device="cuda").manual_seed(42)
).images[0]
image.save("example.png")
Funcionalidades
- Generación de imágenes a partir de prompts en texto.
- Renderizado de texto de alta fidelidad dentro de imágenes, especialmente en chino e inglés.
- Edición avanzada de imágenes: transferencia de estilo, inserción o eliminación de objetos, mejora de detalles, edición de texto en imágenes y manipulación de pose humana.
- Capacidades de comprensión visual aplicables a edición inteligente, como detección de objetos, segmentación semántica, estimación de profundidad, bordes Canny, síntesis de nuevas vistas y superresolución.
- Distribución cuantizada GGUF con múltiples variantes de precisión: 2-bit, 3-bit, 4-bit, 5-bit, 6-bit, 8-bit, BF16 y F16.
- Licencia Apache 2.0.
Casos de uso
- Crear imágenes con texto integrado de forma precisa, como carteles, señales, pósters o composiciones bilingües chino-inglés.
- Generar imágenes artísticas o fotorrealistas en distintos estilos, incluyendo anime, pintura impresionista y diseño minimalista.
- Editar imágenes con operaciones complejas como cambiar estilos, insertar o quitar objetos, mejorar detalles o modificar texto dentro de la escena.
- Construir flujos de creación visual donde el modelo necesite combinar comprensión de lenguaje, composición, tipografía e imagen.
- Usar variantes cuantizadas GGUF para ejecutar Qwen-Image con distintos compromisos entre tamaño, precisión y recursos de hardware.