Qwen-Image-2512

Qwen
Texto a imagen

Modelo fundacional de texto a imagen de Qwen, actualización de diciembre de 2025 de Qwen-Image, orientado a generar imágenes más fotorrealistas. Mejora de forma específica el realismo humano, el nivel de detalle en elementos naturales y la fidelidad del renderizado de texto y composiciones multimodales frente a la versión base lanzada en agosto.

Como usar

Instala la versión más reciente de diffusers y carga el modelo con DiffusionPipeline. Ejemplo de uso:

pip install git+https://github.com/huggingface/diffusers
from diffusers import DiffusionPipeline
import torch

model_name = "Qwen/Qwen-Image-2512"

# Load the pipeline
if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"

pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype).to(device)

# Generate image
prompt = '''A 20-year-old East Asian girl with delicate, charming features and large, bright brown eyes—expressive and lively, with a cheerful or subtly smiling expression. Her naturally wavy long hair is either loose or tied in twin ponytails. She has fair skin and light makeup accentuating her youthful freshness. She wears a modern, cute dress or relaxed outfit in bright, soft colors—lightweight fabric, minimalist cut. She stands indoors at an anime convention, surrounded by banners, posters, or stalls. Lighting is typical indoor illumination—no staged lighting—and the image resembles a casual iPhone snapshot: unpretentious composition, yet brimming with vivid, fresh, youthful charm.'''
negative_prompt = "低分辨率,低画质,肢体畸形,手指畸形,画面过饱和,蜡像感,人脸无细节,过度光滑,画面具有AI感。构图混乱。文字模糊,扭曲。"

# Generate with different aspect ratios
aspect_ratios = {
    "1:1": (1328, 1328),
    "16:9": (1664, 928),
    "9:16": (928, 1664),
    "4:3": (1472, 1104),
    "3:4": (1104, 1472),
    "3:2": (1584, 1056),
    "2:3": (1056, 1584),
}

width, height = aspect_ratios["16:9"]
image = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=width,
    height=height,
    num_inference_steps=50,
    true_cfg_scale=4.0,
    generator=torch.Generator(device="cuda").manual_seed(42)
).images[0]

image.save("example.png")

Relaciones de aspecto mostradas en la página: 1:1, 16:9, 9:16, 4:3, 3:4, 3:2, 2:3.

Funcionalidades

Generación de imágenes a partir de texto con Diffusers
Mayor realismo en rostros, piel, arrugas, cabello y poses humanas
Más detalle en paisajes, agua, niebla, vegetación y pelaje animal
Mejor renderizado de texto, maquetación y composición texto+imagen
Compatible con múltiples relaciones de aspecto predefinidas
Modelo abierto bajo licencia Apache-2.0
Pipeline expuesto como `QwenImagePipeline`
Disponible en formato Safetensors

Casos de uso

Retratos humanos más realistas con menos apariencia de imagen generada por IA
Escenas naturales con agua, niebla, vegetación y fauna con textura más rica
Composición de diapositivas, pósteres e infografías con texto integrado
Imágenes promocionales o educativas que combinan tipografía y elementos visuales
Generación de escenas detalladas con instrucciones semánticas precisas sobre postura, entorno y estilo