Qwen/Qwen-Image

Qwen
Texto a imagen

Modelo fundacional de generación y edición de imágenes de la serie Qwen. Destaca por su renderizado de texto de alta fidelidad, especialmente en chino, y por ofrecer generación visual precisa, edición avanzada e incluso tareas de comprensión visual como segmentación, detección y superresolución.

Como usar

Instala la versión más reciente de diffusers y carga el pipeline Qwen/Qwen-Image. El ejemplo oficial configura el tipo de dato según haya GPU o CPU, añade un sufijo de calidad al prompt y genera una imagen en distintas relaciones de aspecto.

from diffusers import DiffusionPipeline
import torch

model_name = "Qwen/Qwen-Image"

# Load the pipeline
if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"

pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)

positive_magic = {
    "en": ", Ultra HD, 4K, cinematic composition.",  # for english prompt
    "zh": ", 超清,4K,电影级构图."  # for chinese prompt
}

# Generate image
prompt = '''A coffee shop entrance features a chalkboard sign reading "Qwen Coffee 😊 $2 per cup," with a neon light beside it displaying "通义千问". Next to it hangs a poster showing a beautiful Chinese woman, and beneath the poster is written "π≈3.1415926-53589793-23846264-33832795-02384197". Ultra HD, 4K, cinematic composition'''
negative_prompt = " "  # using an empty string if you do not have specific concept to remove

# Generate with different aspect ratios
aspect_ratios = {
    "1:1": (1328, 1328),
    "16:9": (1664, 928),
    "9:16": (928, 1664),
    "4:3": (1472, 1140),
    "3:4": (1140, 1472),
    "3:2": (1584, 1056),
    "2:3": (1056, 1584),
}

width, height = aspect_ratios["16:9"]

image = pipe(
    prompt=prompt + positive_magic["en"],
    negative_prompt=negative_prompt,
    width=width,
    height=height,
    num_inference_steps=50,
    true_cfg_scale=4.0,
    generator=torch.Generator(device="cuda").manual_seed(42)
).images[0]

image.save("example.png")

Funcionalidades

Generación de imágenes a partir de prompts de texto con Diffusers
Renderizado de texto integrado en la imagen con alta precisión tipográfica
Buen desempeño en inglés y rendimiento excepcional en chino
Edición de imágenes con transferencia de estilo, inserción o eliminación de objetos y mejora de detalles
Edición de texto dentro de imágenes y manipulación de poses humanas
Capacidades de comprensión visual como detección de objetos, segmentación semántica, estimación de profundidad y bordes, síntesis de nuevas vistas y superresolución
Licencia Apache 2.0

Casos de uso

Generación de imágenes con texto incrustado de forma legible y coherente
Creación de carteles, rótulos, anuncios y composiciones visuales con texto en inglés o chino
Edición avanzada de imágenes con cambios de estilo, objetos o texto
Producción de imágenes en estilos variados, desde fotorrealismo hasta anime o diseño minimalista
Flujos visuales que combinan generación, edición y comprensión de escena en un mismo modelo