Njbx/Wan2.1-T2V-14B-CausVid-GGUF

Njbx

Texto a video

Conversión directa a GGUF de Wan2.1-T2V-14B-CausVid, un modelo de texto a video de 14B parámetros basado en la arquitectura Wan. Está orientado a ejecución local mediante nodos compatibles con GGUF, especialmente ComfyUI-GGUF, y ofrece cuantizaciones de 3, 4 y 5 bits para ajustar consumo de memoria y tamaño de archivo.

Como usar

Los archivos del modelo pueden usarse con el nodo personalizado ComfyUI-GGUF. Coloca los archivos del modelo en:
ComfyUI/models/unet

La VAE debe descargarse desde el repositorio indicado por Kijai en la tarjeta del modelo original. Para la instalación completa, consulta el README del nodo ComfyUI-GGUF.

Funcionalidades

Generación de video a partir de texto usando el modelo Wan2.1-T2V-14B-CausVid.
Formato GGUF para uso local con herramientas compatibles.
Cuantizaciones disponibles Q3_K_M, Q4_K_S y Q5_0.
Tamaños aproximados de archivo: 7.18 GB, 8.76 GB y 10.3 GB según la cuantización.
Licencia Apache 2.0.
No está desplegado en proveedores de inferencia de Hugging Face.

Casos de uso

Generación local de videos a partir de prompts de texto.
Flujos de trabajo de ComfyUI para text-to-video usando modelos Wan cuantizados.
Pruebas de distintas cuantizaciones GGUF para equilibrar calidad, memoria y velocidad.
Experimentación con Wan2.1-T2V-14B-CausVid sin depender de un proveedor de inferencia alojado.