Qwen/Qwen-Image
Qwen
Texto a imagen
Modelo fundacional de generación y edición de imágenes de la serie Qwen. Destaca por su renderizado de texto de alta fidelidad, especialmente en chino, y por ofrecer generación visual precisa, edición avanzada e incluso tareas de comprensión visual como segmentación, detección y superresolución.
Como usar
Instala la versión más reciente de diffusers y carga el pipeline Qwen/Qwen-Image. El ejemplo oficial configura el tipo de dato según haya GPU o CPU, añade un sufijo de calidad al prompt y genera una imagen en distintas relaciones de aspecto.
from diffusers import DiffusionPipeline
import torch
model_name = "Qwen/Qwen-Image"
# Load the pipeline
if torch.cuda.is_available():
torch_dtype = torch.bfloat16
device = "cuda"
else:
torch_dtype = torch.float32
device = "cpu"
pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)
positive_magic = {
"en": ", Ultra HD, 4K, cinematic composition.", # for english prompt
"zh": ", 超清,4K,电影级构图." # for chinese prompt
}
# Generate image
prompt = '''A coffee shop entrance features a chalkboard sign reading "Qwen Coffee 😊 $2 per cup," with a neon light beside it displaying "通义千问". Next to it hangs a poster showing a beautiful Chinese woman, and beneath the poster is written "π≈3.1415926-53589793-23846264-33832795-02384197". Ultra HD, 4K, cinematic composition'''
negative_prompt = " " # using an empty string if you do not have specific concept to remove
# Generate with different aspect ratios
aspect_ratios = {
"1:1": (1328, 1328),
"16:9": (1664, 928),
"9:16": (928, 1664),
"4:3": (1472, 1140),
"3:4": (1140, 1472),
"3:2": (1584, 1056),
"2:3": (1056, 1584),
}
width, height = aspect_ratios["16:9"]
image = pipe(
prompt=prompt + positive_magic["en"],
negative_prompt=negative_prompt,
width=width,
height=height,
num_inference_steps=50,
true_cfg_scale=4.0,
generator=torch.Generator(device="cuda").manual_seed(42)
).images[0]
image.save("example.png")
Funcionalidades
- Generación de imágenes a partir de prompts de texto con Diffusers
- Renderizado de texto integrado en la imagen con alta precisión tipográfica
- Buen desempeño en inglés y rendimiento excepcional en chino
- Edición de imágenes con transferencia de estilo, inserción o eliminación de objetos y mejora de detalles
- Edición de texto dentro de imágenes y manipulación de poses humanas
- Capacidades de comprensión visual como detección de objetos, segmentación semántica, estimación de profundidad y bordes, síntesis de nuevas vistas y superresolución
- Licencia Apache 2.0
Casos de uso
- Generación de imágenes con texto incrustado de forma legible y coherente
- Creación de carteles, rótulos, anuncios y composiciones visuales con texto en inglés o chino
- Edición avanzada de imágenes con cambios de estilo, objetos o texto
- Producción de imágenes en estilos variados, desde fotorrealismo hasta anime o diseño minimalista
- Flujos visuales que combinan generación, edición y comprensión de escena en un mismo modelo