ZuluVision/MoviiGen1.1

ZuluVision

Texto a video

MoviiGen 1.1 es un modelo de generación de vídeo texto-a-vídeo ajustado a partir de Wan2.1-T2V-14B, orientado a resultados de calidad cinematográfica. Está diseñado para producir vídeos con estética de cine, buena coherencia visual, alto nivel de detalle, realismo y movimiento natural, con soporte para salidas en 720P y 1080P. Sus autores recomiendan 1080P en formato 21:9 para obtener una apariencia más cinematográfica.

Como usar

Instalación con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("ZuluVision/MoviiGen1.1", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso desde el repositorio oficial:
git clone https://github.com/ZulutionAI/MoviiGen1.1.git
cd MoviiGen1.1
pip install -r requirements.txt

Descarga del modelo:
pip install "huggingface_hub[cli]"
huggingface-cli download ZuluVision/MoviiGen1.1 --local-dir ./MoviiGen1.1

Inferencia sin extensión de prompt:
PYTHONPATH=. python scripts/inference/generate.py --ckpt_dir ./MoviiGen1.1 --prompt "Inside a smoky, atmospheric private eye office bathed in dramatic film noir lighting, sharp shadows from slatted blinds cut across a cluttered desk and worn surroundings, evoking the classic style by 1940s film. A world-weary detective is sitting behind the desk. He is smoking a cigarette, slowly bringing it to his lips, inhaling, and exhaling a plume of smoke that drifts in the harsh, directional light. The scene is rendered in stark black and white, creating a high-contrast, cinematic mood. The camera holds a static medium shot focused on the detective, emphasizing the gritty texture and oppressive atmosphere."

Inferencia con extensión de prompt:
PYTHONPATH=. python scripts/inference/generate.py --ckpt_dir ./MoviiGen1.1 --prompt "A beautiful woman in a red dress is walking on the street." --use_prompt_extend --prompt_extend_model ZuluVision/MoviiGen1.1_Prompt_Rewriter

Los prompts recomendados tienen unas 100 a 200 palabras e incluyen descripción de escena, sujeto principal, acciones, estética y movimiento de cámara.

Funcionalidades

Generación de vídeo a partir de texto con enfoque cinematográfico.
Fine-tuning basado en Wan2.1-T2V-14B.
Mejor rendimiento declarado en atmósfera, movimiento de cámara y preservación de detalles de objetos.
Soporte para resoluciones 720P y 1080P.
Recomendación de uso en 1080P con relación 21:9, por ejemplo 1920x832.
Código de inferencia y entrenamiento publicado.
Modelo opcional de extensión de prompts basado en Qwen2.5-7B-Instruct ajustado con datos internos.
Framework de entrenamiento basado en FastVideo con paralelismo de secuencia, Ring Attention, entrenamiento multirresolución y precisión mixta BF16/FP16.

Casos de uso

Producción de clips cinematográficos a partir de prompts detallados.
Conversión de escenas reales o retratos en vídeos de alta fidelidad visual.
Generación creativa de secuencias con atmósfera, iluminación y composición de estilo cine.
Prototipado visual para cine, publicidad, piezas narrativas y contenido creativo.
Entrenamiento o fine-tuning de modelos de vídeo generativo con datasets propios.