Nichonauta/Self-Forcing2.1-T2V-1.3B-GGUF
Nichonauta
Texto a video
Versión cuantizada en formato GGUF del modelo de generación de video Self-Forcing, derivado de Wan2.1-T2V-1.3B. Está orientado a generación texto-a-video eficiente en GPU o CPU, con menor consumo de RAM/VRAM y mejoras de coherencia temporal mediante una técnica de autocorrección durante la generación.
Como usar
Los archivos del modelo pueden usarse en ComfyUI con el nodo personalizado ComfyUI-GGUF. La página no incluye un snippet funcional para la librería SelfForcing; indica consultar los archivos del repositorio y la documentación de la librería.
# No code snippets available yet for this library.
# To use this model, check the repository files and the library's documentation.
# Want to help? PRs adding snippets are welcome at:
# https://github.com/huggingface/huggingface.js
Nota: ejecutar este modelo de video en formato GGUF requiere software compatible capaz de interpretar la arquitectura Diffusion Transformer de video.
Funcionalidades
- Generación de video a partir de texto basada en Wan2.1-T2V-1.3B, un modelo de 1.300 millones de parámetros.
- Formato GGUF con cuantizaciones Q4_0, Q8_0 y F16 para reducir tamaño y uso de memoria.
- Inferencia en GPU o CPU mediante software compatible con GGUF y arquitecturas de difusión de video.
- Técnica Self-Forcing para mejorar consistencia temporal y calidad visual corrigiendo errores de generación en tiempo real.
- Compatible con flujos locales como ComfyUI mediante el nodo personalizado ComfyUI-GGUF.
- Puede apoyar generación guiada por imágenes para transiciones suaves entre imagen inicial y final con prompt de texto.
Casos de uso
- Generar videos cortos a partir de prompts de texto en hardware local con menor consumo de memoria.
- Probar variantes cuantizadas de modelos texto-a-video sin requerir GPUs de gama alta.
- Crear transiciones de video guiadas por imagen inicial, imagen final y descripción textual.
- Experimentar con flujos de generación de video en ComfyUI usando modelos GGUF.