Lightricks/LTX-Video-0.9.7-distilled

Lightricks

Texto a video

Modelo de generación de video basado en difusión para texto a video, imagen a video y video a video. Es la variante destilada de LTX-Video 0.9.7 de Lightricks, pensada para iteraciones rápidas con menor uso de VRAM y una ligera reducción de calidad frente a la versión 13B dev. Puede generar videos de alta resolución con contenido realista y variado, y está optimizado para flujos de trabajo con Diffusers y ComfyUI.

Como usar

Instalación rápida con Diffusers:
pip install -U diffusers transformers accelerate

Ejemplo básico:
import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "Lightricks/LTX-Video-0.9.7-distilled",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejecución local desde el repositorio oficial:
git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]

Texto a video:
python inference.py --prompt "PROMPT" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-distilled.yaml

Imagen a video:
python inference.py --prompt "PROMPT" --input_image_path IMAGE_PATH --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-distilled.yaml

Consejos: los prompts deben estar en inglés y suelen funcionar mejor cuando describen con detalle sujeto, movimiento, cámara, iluminación, composición y estilo visual. El modelo no está pensado para proporcionar información factual y puede amplificar sesgos o no seguir el prompt con precisión.

Funcionalidades

Generación de video desde prompts de texto en inglés.
Generación de video condicionada por imagen y texto.
Generación de video condicionada por clips de video existentes.
Arquitectura DiT basada en difusión para generación de video.
Variante destilada más rápida y con menor consumo de VRAM que ltxv-13b-0.9.7-dev.
Compatibilidad con Diffusers mediante LTXConditionPipeline.
Compatibilidad con ComfyUI mediante workflows oficiales.
Admite etapa opcional de escalado latente con Lightricks/ltxv-spatial-upscaler-0.9.7.
Funciona mejor con resoluciones inferiores a 720 x 1280 y menos de 257 fotogramas.
Requiere resoluciones divisibles por 32 y números de fotogramas divisibles por 8 + 1; si no, rellena y recorta automáticamente.

Casos de uso

Prototipado rápido de clips generados por texto para cine, publicidad, redes sociales o storyboards.
Animación de una imagen inicial manteniendo una condición visual de partida.
Transformación o continuación de clips existentes mediante video a video.
Exploración visual iterativa cuando se necesita menor consumo de VRAM que la variante 13B de mayor calidad.
Flujos creativos en ComfyUI para usuarios que prefieren pipelines visuales.
Integración en aplicaciones Python con Diffusers para generar clips y exportarlos como MP4.