mrfakename/ZuluVision-MoviiGen1.1

mrfakename

Texto a video

MoviiGen 1.1 es un modelo de generación de vídeo a partir de texto orientado a resultados cinematográficos, afinado sobre Wan2.1-T2V-14B. Está diseñado para producir vídeos con alta claridad, realismo, coherencia visual, detalle de objetos y movimientos de cámara adecuados para aplicaciones creativas y de producción audiovisual profesional. Soporta salidas en 720p y 1080p.

Como usar

Uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("mrfakename/ZuluVision-MoviiGen1.1", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Instalación del repositorio:
git clone https://github.com/ZulutionAI/MoviiGen1.1.git
cd MoviiGen1.1

# Ensure torch >= 2.4.0
pip install -r requirements.txt

Descarga del modelo:
pip install "huggingface_hub[cli]"
huggingface-cli download ZuluVision/MoviiGen1.1 --local-dir ./MoviiGen1.1

Preprocesamiento de datos:
cd scripts/data_preprocess
bash scripts/data_preprocess/preprocess.sh

Entrenamiento:
bash scripts/train/finetune.sh

Entrenamiento multinodo:
bash scripts/bash/finetune_multi_node.sh

Funcionalidades

Generación de vídeo desde texto con Diffusers y pesos Safetensors.
Afinado sobre el modelo base Wan-AI/Wan2.1-T2V-14B.
Enfoque en estética cinematográfica, creación de atmósfera, movimiento de cámara y preservación de detalle.
Mejoras reportadas en claridad y realismo frente a Wan2.1 en evaluaciones profesionales.
Soporte para resoluciones 720p y 1080p.
Código de inferencia, entrenamiento y pesos publicados.
Entrenamiento basado en FastVideo con paralelismo de secuencia, Ring Attention, entrenamiento multi-GPU y precisión mixta BF16/FP16.
Preprocesamiento con caché de latentes y embeddings de texto para acelerar el entrenamiento.

Casos de uso

Creación de vídeos cinematográficos a partir de prompts de texto.
Producción audiovisual creativa donde importan la claridad, el realismo y la coherencia visual.
Conversión o generación de escenas realistas con alto detalle.
Vídeo generativo para retratos, escenas complejas y movimientos de cámara estéticos.
Investigación y ajuste fino de modelos grandes de generación de vídeo.