Lightricks/LTX-Video-0.9.7-distilled
Modelo de generación de video basado en difusión para texto a video, imagen a video y video a video. Es la variante destilada de LTX-Video 0.9.7 de Lightricks, pensada para iteraciones rápidas con menor uso de VRAM y una ligera reducción de calidad frente a la versión 13B dev. Puede generar videos de alta resolución con contenido realista y variado, y está optimizado para flujos de trabajo con Diffusers y ComfyUI.
Como usar
Instalación rápida con Diffusers:
pip install -U diffusers transformers accelerate
Ejemplo básico:
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"Lightricks/LTX-Video-0.9.7-distilled",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejecución local desde el repositorio oficial:
git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]
Texto a video:
python inference.py --prompt "PROMPT" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-distilled.yaml
Imagen a video:
python inference.py --prompt "PROMPT" --input_image_path IMAGE_PATH --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-distilled.yaml
Consejos: los prompts deben estar en inglés y suelen funcionar mejor cuando describen con detalle sujeto, movimiento, cámara, iluminación, composición y estilo visual. El modelo no está pensado para proporcionar información factual y puede amplificar sesgos o no seguir el prompt con precisión.
Funcionalidades
- Generación de video desde prompts de texto en inglés.
- Generación de video condicionada por imagen y texto.
- Generación de video condicionada por clips de video existentes.
- Arquitectura DiT basada en difusión para generación de video.
- Variante destilada más rápida y con menor consumo de VRAM que ltxv-13b-0.9.7-dev.
- Compatibilidad con Diffusers mediante LTXConditionPipeline.
- Compatibilidad con ComfyUI mediante workflows oficiales.
- Admite etapa opcional de escalado latente con Lightricks/ltxv-spatial-upscaler-0.9.7.
- Funciona mejor con resoluciones inferiores a 720 x 1280 y menos de 257 fotogramas.
- Requiere resoluciones divisibles por 32 y números de fotogramas divisibles por 8 + 1; si no, rellena y recorta automáticamente.
Casos de uso
- Prototipado rápido de clips generados por texto para cine, publicidad, redes sociales o storyboards.
- Animación de una imagen inicial manteniendo una condición visual de partida.
- Transformación o continuación de clips existentes mediante video a video.
- Exploración visual iterativa cuando se necesita menor consumo de VRAM que la variante 13B de mayor calidad.
- Flujos creativos en ComfyUI para usuarios que prefieren pipelines visuales.
- Integración en aplicaciones Python con Diffusers para generar clips y exportarlos como MP4.