wikeeyang/Magic-Wan-T2IV-V3
wikeeyang
Texto a imagen
Magic-Wan-T2IV-V3 es un modelo base de difusión de 14B parámetros basado en Wan-AI/Wan2.2-T2V-A14B y orientado a generación de imagen desde texto, con capacidades unificadas de texto-a-imagen y texto-a-video corto. La versión V3 mejora el realismo en escenas, objetos, retratos y piel, el seguimiento de prompts, la composición estética, la optimización de rostros y el renderizado limitado de texto en inglés y chino. Está publicado bajo licencia Apache 2.0 y se distribuye también en variantes GGUF cuantizadas.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("wikeeyang/Magic-Wan-T2IV-V3", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
La tarjeta del modelo también remite a flujos base para imagen y video: V3-T2Image-Workflow.json y V3-T2Video-Workflow.json.
Funcionalidades
- Generación de imágenes desde texto con Diffusers.
- Modelo base puro apto para fine-tuning o entrenamiento LoRA.
- Capacidad unificada para texto-a-imagen y texto-a-video de corta duración.
- Mejor seguimiento de prompts frente a versiones anteriores.
- Mejoras en escenas realistas, retratos, piel, composición y rostros.
- Soporte de renderizado de fuentes en inglés y una cantidad limitada de chino.
- Arquitectura Wan con 14B parámetros.
- Versiones GGUF disponibles en Q4_1, Q5_K_M y Q8_0.
Casos de uso
- Crear imágenes realistas de escenas, objetos y retratos a partir de prompts.
- Generar retratos y escenas fotográficas con piel y detalles más realistas.
- Prototipar flujos de texto-a-video corto desde un modelo derivado de Wan2.2-T2V.
- Entrenar LoRAs o hacer fine-tuning sobre un modelo base puro.
- Combinar el modelo con LoRAs Turbo, Distill, SFW o NSFW según el entorno de uso.
- Ejecutar inferencia local en aplicaciones compatibles como Draw Things o DiffusionBee.