wikeeyang/Magic-Wan-Image-V2
wikeeyang
Texto a imagen
Modelo de generación de imágenes basado en Wan2.2-T2V-14B, ajustado para crear imágenes realistas de alta resolución, especialmente retratos y escenas del mundo real. La versión V2 destaca por piel realista, mucho detalle y soporte para escalado directo hasta 8 megapíxeles mediante TTP. Se publica como modelo base limpio bajo licencia Apache 2.0.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"wikeeyang/Magic-Wan-Image-V2",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
El autor también recomienda revisar el flujo base en V2-example-workflow-image.png. Para la línea V1 se mencionan rangos orientativos: model shift entre 1.0 y 8.0, model cfg entre 1.0 y 4.0, inference steps entre 20 y 50, y combinaciones como deis/simple o euler/beta para sampler/scheduler.
Funcionalidades
- Generación texto-a-imagen con arquitectura Wan.
- Enfoque en retratos, piel realista y escenas fotográficas.
- Alta resolución y detalles ricos, con escalado directo hasta 8M píxeles usando TTP.
- Modelo base compatible con LoRAs adicionales según el flujo del usuario.
- Disponible en formato GGUF con variantes Q4_1 de 9.65 GB y Q8_0 de 15.4 GB.
- Tamaño aproximado de 14B parámetros.
- Derivado y ajustado desde Wan-AI/Wan2.2-T2V-A14B.
Casos de uso
- Crear retratos realistas con textura de piel detallada.
- Generar imágenes fotográficas de escenas reales o cinematográficas.
- Producir imágenes de alta resolución a partir de prompts de texto.
- Experimentar con flujos Wan2.2 adaptados a generación de imagen estática.
- Combinar el modelo base con LoRAs para estilos o dominios visuales específicos.