wikeeyang/Magic-Wan-T2IV-V3

wikeeyang

Texto a imagen

Magic-Wan-T2IV-V3 es un modelo base de difusión de 14B parámetros basado en Wan-AI/Wan2.2-T2V-A14B y orientado a generación de imagen desde texto, con capacidades unificadas de texto-a-imagen y texto-a-video corto. La versión V3 mejora el realismo en escenas, objetos, retratos y piel, el seguimiento de prompts, la composición estética, la optimización de rostros y el renderizado limitado de texto en inglés y chino. Está publicado bajo licencia Apache 2.0 y se distribuye también en variantes GGUF cuantizadas.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("wikeeyang/Magic-Wan-T2IV-V3", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

La tarjeta del modelo también remite a flujos base para imagen y video: V3-T2Image-Workflow.json y V3-T2Video-Workflow.json.

Funcionalidades

Generación de imágenes desde texto con Diffusers.
Modelo base puro apto para fine-tuning o entrenamiento LoRA.
Capacidad unificada para texto-a-imagen y texto-a-video de corta duración.
Mejor seguimiento de prompts frente a versiones anteriores.
Mejoras en escenas realistas, retratos, piel, composición y rostros.
Soporte de renderizado de fuentes en inglés y una cantidad limitada de chino.
Arquitectura Wan con 14B parámetros.
Versiones GGUF disponibles en Q4_1, Q5_K_M y Q8_0.

Casos de uso

Crear imágenes realistas de escenas, objetos y retratos a partir de prompts.
Generar retratos y escenas fotográficas con piel y detalles más realistas.
Prototipar flujos de texto-a-video corto desde un modelo derivado de Wan2.2-T2V.
Entrenar LoRAs o hacer fine-tuning sobre un modelo base puro.
Combinar el modelo con LoRAs Turbo, Distill, SFW o NSFW según el entorno de uso.
Ejecutar inferencia local en aplicaciones compatibles como Draw Things o DiffusionBee.