lightx2v/Self-Forcing-NVFP4

lightx2v

Texto a video

Modelo de generación de video Self-Forcing cuantizado en NVFP4 y destilado para inferencia en 4 pasos, optimizado para GPUs NVIDIA Blackwell. Está pensado para acelerar la generación de video manteniendo la calidad del modelo Self-Forcing original, con integración recomendada en LightX2V.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "lightx2v/Self-Forcing-NVFP4",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Inicio rápido con LightX2V y kernel NVFP4:
# 1. Install LightX2V
git clone https://github.com/ModelTC/LightX2V.git
cd LightX2V
uv pip install -v .

# 2. Install NVFP4 Kernel
pip install scikit_build_core uv
git clone https://github.com/NVIDIA/cutlass.git
cd lightx2v_kernel
MAX_JOBS=$(nproc) CMAKE_BUILD_PARALLEL_LEVEL=$(nproc) \
uv build --wheel \
-Cbuild-dir=build . \
-Ccmake.define.CUTLASS_PATH=/path/to/cutlass \
--verbose --color=always --no-build-isolation
pip install dist/*whl --force-reinstall --no-deps

# 3. Run inference
# config https://github.com/ModelTC/LightX2V/blob/main/configs/self_forcing/wan_t2v_sf_nvfp4.json

Requisitos: GPU NVIDIA RTX serie 50 o GPU Blackwell compatible. Se deben preparar por separado los componentes T5, CLIP y VAE con la misma estructura usada por Self-Forcing.

Funcionalidades

Inferencia en 4 pasos para generación de video mucho más rápida, probada en una RTX 5090 de una sola GPU.
Cuantización NVFP4 para reducir uso de memoria y ancho de banda en arquitectura Blackwell.
Integración con LightX2V para mejor rendimiento y estabilidad.
Mantiene la calidad visual de Self-Forcing con una velocidad de generación superior.
Basado en Wan-AI/Wan2.1-T2V-1.3B y distribuido con licencia Apache 2.0.

Casos de uso

Generación de video texto-a-video acelerada en hardware NVIDIA Blackwell.
Pruebas de generación casi en tiempo real con modelos Self-Forcing destilados.
Investigación de cuantización NVFP4 aplicada a modelos de difusión de video.
Implementaciones locales de video generativo con LightX2V y GPUs RTX 50.