lightx2v/Wan2.1-T2V-1.3B-longcat-step1500
lightx2v
Texto a video
Adaptador LoRA para Wan2.1-T2V-1.3B-Diffusers orientado a generación de video a partir de texto. Fue afinado durante 1500 pasos con GRPO y optimización multi-recompensa para mejorar calidad estética, coherencia de movimiento, alineación texto-video y estabilidad visual en clips de 81 fotogramas a 480×832 píxeles.
Como usar
Instalación:
pip install diffusers transformers accelerate torch
Uso con Diffusers:
import torch
from diffusers import WanPipeline
from diffusers.utils import export_to_video
pipe = WanPipeline.from_pretrained(
"Wan-AI/Wan2.1-T2V-1.3B-Diffusers",
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe.load_lora_weights("lightx2v/Wan2.1-T2V-1.3B-longcat-step1500")
prompt = "A golden retriever playing in a sunny park, high quality, detailed"
video = pipe(
prompt=prompt,
height=480,
width=832,
num_frames=81,
num_inference_steps=50,
guidance_scale=4.5,
generator=torch.Generator().manual_seed(42)
).frames[0]
export_to_video(video, "output.mp4", fps=16)
Funcionalidades
- LoRA sobre Wan2.1-T2V-1.3B-Diffusers con rango 128 y alpha 64.
- Entrenamiento con GRPO y recompensas HPSv3 y VideoAlign para estética, movimiento y alineación semántica.
- Optimizado para videos de aproximadamente 5 segundos: 81 fotogramas a 16 fps.
- Configuración recomendada: 50 pasos de inferencia, guidance scale 4.5, resolución 480×832 y semilla fija para reproducibilidad.
- Distribuido bajo licencia MIT.
Casos de uso
- Generación de videos cortos a partir de prompts de texto.
- Producción de clips verticales o semiverticales de 480×832 píxeles.
- Experimentación con LoRA y aprendizaje por refuerzo para modelos de video generativo.
- Evaluación de mejoras en estética, coherencia de movimiento y fidelidad texto-video sobre Wan2.1-T2V-1.3B.