CogVideoX-5B

THUDM

Texto a video

CogVideoX es una versión de código abierto del modelo de generación de video originado en QingYing. Es un modelo de mayor tamaño que ofrece una mayor calidad en la generación de video y mejores efectos visuales.

Como usar

Este modelo admite la implementación utilizando la biblioteca diffusers de Hugging Face. Puedes desplegarlo siguiendo estos pasos. Se recomienda visitar nuestro GitHub y revisar las optimizaciones y conversiones relevantes para obtener una mejor experiencia.
# Instalar las dependencias necesarias
pip install --upgrade transformers accelerate diffusers imageio-ffmpeg

# Ejecutar el código
import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video

prompt = "Un panda, vestido con una pequeña chaqueta roja y un sombrerito, se sienta en un taburete de madera en un tranquilo bosque de bambú. Las patas esponjosas del panda rasguean una guitarra acústica en miniatura, produciendo suaves melodías. Cerca, algunos otros pandas observaban con curiosidad y algunos aplauden al ritmo. La luz del sol se filtra a través del alto bambú, emitiendo un suave resplandor en la escena. La cara del panda es expresiva, mostrando concentración y alegría mientras toca. El fondo incluye un pequeño arroyo que fluye y un vibrante follaje verde, mejorando la atmósfera pacífica y mágica de esta única actuación musical."

pipe = CogVideoXPipeline.from_pretrained(
    "THUDM/CogVideoX-5b",
    torch_dtype=torch.bfloat16
)

pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()

video = pipe(
    prompt=prompt,
    num_videos_per_prompt=1,
    num_inference_steps=50,
    num_frames=49,
    guidance_scale=6,
    generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]

export_to_video(video, "output.mp4", fps=8)

Funcionalidades

Modelo de mayor tamaño con mejor calidad de generación de video y efectos visuales.
Precisión de Inferencia: BF16 (Recomendado), FP16, FP32, FP8*, INT8, sin soporte para INT4.
Consumo de VRAM para una sola GPU: SAT BF16: 26GB, diffusers BF16: desde 5GB*, diffusers INT8 (torchao): desde 4.4GB*.
Consumo de VRAM para inferencia Multi-GPU: BF16: 15GB* usando diffusers.
Velocidad de inferencia: A100 (~180 segundos), H100 (~90 segundos).
Longitud del Prompt: Límite de 226 tokens.
Duración del video: 6 segundos.
Resolución del video: 720 x 480.
Frecuencia de cuadros: 8 cuadros por segundo.
Optimizaciones de VRAM disponibles.
Soporta solo entradas en inglés.
Cineado y codificación posicional 3d_rope_pos_embed.

Casos de uso

Generación de videos a partir de texto con alta calidad visual.
Producción de contenido audiovisual para presentaciones y medios sociales.
Desarrollos comerciales y aplicaciones multimedia.