Nichonauta/Self-Forcing2.1-T2V-1.3B-GGUF

Nichonauta

Texto a video

Versión cuantizada en formato GGUF del modelo de generación de video Self-Forcing, derivado de Wan2.1-T2V-1.3B. Está orientado a generación texto-a-video eficiente en GPU o CPU, con menor consumo de RAM/VRAM y mejoras de coherencia temporal mediante una técnica de autocorrección durante la generación.

Como usar

Los archivos del modelo pueden usarse en ComfyUI con el nodo personalizado ComfyUI-GGUF. La página no incluye un snippet funcional para la librería SelfForcing; indica consultar los archivos del repositorio y la documentación de la librería.
# No code snippets available yet for this library.
# To use this model, check the repository files and the library's documentation.
# Want to help? PRs adding snippets are welcome at:
# https://github.com/huggingface/huggingface.js

Nota: ejecutar este modelo de video en formato GGUF requiere software compatible capaz de interpretar la arquitectura Diffusion Transformer de video.

Funcionalidades

Generación de video a partir de texto basada en Wan2.1-T2V-1.3B, un modelo de 1.300 millones de parámetros.
Formato GGUF con cuantizaciones Q4_0, Q8_0 y F16 para reducir tamaño y uso de memoria.
Inferencia en GPU o CPU mediante software compatible con GGUF y arquitecturas de difusión de video.
Técnica Self-Forcing para mejorar consistencia temporal y calidad visual corrigiendo errores de generación en tiempo real.
Compatible con flujos locales como ComfyUI mediante el nodo personalizado ComfyUI-GGUF.
Puede apoyar generación guiada por imágenes para transiciones suaves entre imagen inicial y final con prompt de texto.

Casos de uso

Generar videos cortos a partir de prompts de texto en hardware local con menor consumo de memoria.
Probar variantes cuantizadas de modelos texto-a-video sin requerir GPUs de gama alta.
Crear transiciones de video guiadas por imagen inicial, imagen final y descripción textual.
Experimentar con flujos de generación de video en ComfyUI usando modelos GGUF.