wikeeyang/Magic-Wan-Image-V2

wikeeyang

Texto a imagen

Modelo de generación de imágenes basado en Wan2.2-T2V-14B, ajustado para crear imágenes realistas de alta resolución, especialmente retratos y escenas del mundo real. La versión V2 destaca por piel realista, mucho detalle y soporte para escalado directo hasta 8 megapíxeles mediante TTP. Se publica como modelo base limpio bajo licencia Apache 2.0.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "wikeeyang/Magic-Wan-Image-V2",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

El autor también recomienda revisar el flujo base en V2-example-workflow-image.png. Para la línea V1 se mencionan rangos orientativos: model shift entre 1.0 y 8.0, model cfg entre 1.0 y 4.0, inference steps entre 20 y 50, y combinaciones como deis/simple o euler/beta para sampler/scheduler.

Funcionalidades

Generación texto-a-imagen con arquitectura Wan.
Enfoque en retratos, piel realista y escenas fotográficas.
Alta resolución y detalles ricos, con escalado directo hasta 8M píxeles usando TTP.
Modelo base compatible con LoRAs adicionales según el flujo del usuario.
Disponible en formato GGUF con variantes Q4_1 de 9.65 GB y Q8_0 de 15.4 GB.
Tamaño aproximado de 14B parámetros.
Derivado y ajustado desde Wan-AI/Wan2.2-T2V-A14B.

Casos de uso

Crear retratos realistas con textura de piel detallada.
Generar imágenes fotográficas de escenas reales o cinematográficas.
Producir imágenes de alta resolución a partir de prompts de texto.
Experimentar con flujos Wan2.2 adaptados a generación de imagen estática.
Combinar el modelo base con LoRAs para estilos o dominios visuales específicos.