lightx2v/Wan2.1-T2V-1.3B-longcat-step1500

lightx2v

Texto a video

Adaptador LoRA para Wan2.1-T2V-1.3B-Diffusers orientado a generación de video a partir de texto. Fue afinado durante 1500 pasos con GRPO y optimización multi-recompensa para mejorar calidad estética, coherencia de movimiento, alineación texto-video y estabilidad visual en clips de 81 fotogramas a 480×832 píxeles.

Como usar

Instalación:
pip install diffusers transformers accelerate torch

Uso con Diffusers:
import torch
from diffusers import WanPipeline
from diffusers.utils import export_to_video

pipe = WanPipeline.from_pretrained(
    "Wan-AI/Wan2.1-T2V-1.3B-Diffusers",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

pipe.load_lora_weights("lightx2v/Wan2.1-T2V-1.3B-longcat-step1500")

prompt = "A golden retriever playing in a sunny park, high quality, detailed"
video = pipe(
    prompt=prompt,
    height=480,
    width=832,
    num_frames=81,
    num_inference_steps=50,
    guidance_scale=4.5,
    generator=torch.Generator().manual_seed(42)
).frames[0]

export_to_video(video, "output.mp4", fps=16)

Funcionalidades

LoRA sobre Wan2.1-T2V-1.3B-Diffusers con rango 128 y alpha 64.
Entrenamiento con GRPO y recompensas HPSv3 y VideoAlign para estética, movimiento y alineación semántica.
Optimizado para videos de aproximadamente 5 segundos: 81 fotogramas a 16 fps.
Configuración recomendada: 50 pasos de inferencia, guidance scale 4.5, resolución 480×832 y semilla fija para reproducibilidad.
Distribuido bajo licencia MIT.

Casos de uso

Generación de videos cortos a partir de prompts de texto.
Producción de clips verticales o semiverticales de 480×832 píxeles.
Experimentación con LoRA y aprendizaje por refuerzo para modelos de video generativo.
Evaluación de mejoras en estética, coherencia de movimiento y fidelidad texto-video sobre Wan2.1-T2V-1.3B.