magespace/Wan2.2-I2V-A14B-Lightning-Diffusers

magespace

Texto a video

Versión Diffusers optimizada de Wan2.2 I2V-A14B Lightning para generación de video a partir de imagen. Forma parte de la familia Wan2.2, que usa una arquitectura Mixture-of-Experts en modelos de difusión de video para mejorar movimiento, estética cinematográfica y calidad visual manteniendo activos unos 14B parámetros por paso. Está orientado a generación image-to-video en 480P y 720P, con licencia Apache 2.0 y soporte mediante Diffusers/WanImageToVideoPipeline.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "magespace/Wan2.2-I2V-A14B-Lightning-Diffusers",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Para usar las funciones más recientes de Wan2.2 en Diffusers, la página indica que puede ser necesario instalar Diffusers desde la rama principal:
pip install git+https://github.com/huggingface/diffusers

Funcionalidades

Generación de video a partir de imagen con la familia Wan2.2 I2V-A14B.
Arquitectura MoE con expertos especializados para distintas fases del denoising.
Soporte anunciado para resoluciones 480P y 720P en la familia I2V-A14B.
Formato Safetensors y compatibilidad con Diffusers.
Optimización Lightning/Lightx2v enfocada en generación rápida y de alta calidad.
Entrenamiento Wan2.2 con más datos que Wan2.1 para mejorar movimiento, semántica y estética.
Licencia Apache 2.0.
No está desplegado actualmente en proveedores de inferencia de Hugging Face.

Casos de uso

Crear clips image-to-video a partir de una imagen de referencia y un prompt descriptivo.
Producción de videos cortos con estilo cinematográfico controlable.
Experimentación académica con modelos de difusión de video MoE.
Prototipado de flujos creativos en Hugging Face Diffusers, Colab, Kaggle o entornos locales con GPU.
Generación de contenido visual en 480P/720P cuando se dispone de suficiente VRAM.