mrfakename/ZuluVision-MoviiGen1.1
mrfakename
Texto a video
MoviiGen 1.1 es un modelo de generación de vídeo a partir de texto orientado a resultados cinematográficos, afinado sobre Wan2.1-T2V-14B. Está diseñado para producir vídeos con alta claridad, realismo, coherencia visual, detalle de objetos y movimientos de cámara adecuados para aplicaciones creativas y de producción audiovisual profesional. Soporta salidas en 720p y 1080p.
Como usar
Uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("mrfakename/ZuluVision-MoviiGen1.1", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Instalación del repositorio:
git clone https://github.com/ZulutionAI/MoviiGen1.1.git
cd MoviiGen1.1
# Ensure torch >= 2.4.0
pip install -r requirements.txt
Descarga del modelo:
pip install "huggingface_hub[cli]"
huggingface-cli download ZuluVision/MoviiGen1.1 --local-dir ./MoviiGen1.1
Preprocesamiento de datos:
cd scripts/data_preprocess
bash scripts/data_preprocess/preprocess.sh
Entrenamiento:
bash scripts/train/finetune.sh
Entrenamiento multinodo:
bash scripts/bash/finetune_multi_node.sh
Funcionalidades
- Generación de vídeo desde texto con Diffusers y pesos Safetensors.
- Afinado sobre el modelo base Wan-AI/Wan2.1-T2V-14B.
- Enfoque en estética cinematográfica, creación de atmósfera, movimiento de cámara y preservación de detalle.
- Mejoras reportadas en claridad y realismo frente a Wan2.1 en evaluaciones profesionales.
- Soporte para resoluciones 720p y 1080p.
- Código de inferencia, entrenamiento y pesos publicados.
- Entrenamiento basado en FastVideo con paralelismo de secuencia, Ring Attention, entrenamiento multi-GPU y precisión mixta BF16/FP16.
- Preprocesamiento con caché de latentes y embeddings de texto para acelerar el entrenamiento.
Casos de uso
- Creación de vídeos cinematográficos a partir de prompts de texto.
- Producción audiovisual creativa donde importan la claridad, el realismo y la coherencia visual.
- Conversión o generación de escenas realistas con alto detalle.
- Vídeo generativo para retratos, escenas complejas y movimientos de cámara estéticos.
- Investigación y ajuste fino de modelos grandes de generación de vídeo.