alibaba-pai/Wan2.2-Fun-Reward-LoRAs

alibaba-pai

Texto a video

Conjunto de LoRAs de recompensa para Wan2.2-Fun que optimizan la generación de video mediante Reward Backpropagation, con el objetivo de mejorar la alineación de los videos generados con preferencias humanas. Incluye variantes para el modelo base Wan2.2-Fun-A14B-InP en modos de ruido alto y bajo, entrenadas con modelos de recompensa HPS v2.1 y MPS.

Como usar

Uso con VideoX Fun:
# No code snippets available yet for this library.
# To use this model, check the repository files and the library's documentation.
# Want to help? PRs adding snippets are welcome at:
# https://github.com/huggingface/huggingface.js

Para usar las LoRAs, configura lora_path y lora_weight para la LoRA de recompensa de bajo ruido, y lora_high_path junto con lora_high_weight para la LoRA de recompensa de alto ruido en examples/wan2.2_fun/predict_t2v.py. Para entrenamiento, consulta README_TRAIN_REWARD.md.

Funcionalidades

LoRAs oficiales de recompensa para Wan2.2-Fun-A14B-InP en configuraciones de ruido alto y ruido bajo.
Compatibilidad como plug-in sobre el modelo base correspondiente, sin sustituir el modelo principal.
Variantes entrenadas con HPS v2.1 y MPS, con rank=128 y network_alpha=64.
Entrenamiento incluido para crear LoRAs de recompensa propias.
Los autores recomiendan HPS v2.1 para el modelo de ruido bajo porque la variante MPS converge más lentamente y puede ofrecer peores resultados.

Casos de uso

Mejorar videos generados por Wan2.2-Fun-A14B-InP para que se ajusten mejor a preferencias humanas.
Aplicar LoRAs de recompensa HPS v2.1 o MPS durante inferencia de texto a video.
Experimentar con Reward Backpropagation en modelos de difusión para video.
Entrenar LoRAs de recompensa personalizadas para variantes compatibles de Wan2.2-Fun.