calcuis/mochi

calcuis

Texto a video

Versión cuantizada en formato GGUF de Mochi, basada en `genmo/mochi-1-preview`, preparada como paquete de prueba para `gguf-node` y flujos de ComfyUI. Está orientada a generación de video desde texto y usa arquitectura Mochi con codificador de texto T5/TT5XXL cuantizado.

Como usar

Configuración indicada por la página del modelo:
Arrastrar mochi-q3_k_m.gguf [4.31GB] a ./ComfyUI/models/diffusion_models
Arrastrar t5xxl_fp16-q4_0.gguf [2.9GB] a ./ComfyUI/models/text_encoders
Arrastrar mochi_vae_fp8_e4m3fn.safetensors [460MB] a ./ComfyUI/models/vae

Ejecución sugerida: abrir el archivo .bat del directorio principal si se usa el paquete gguf-node, y arrastrar el archivo JSON de workflow al navegador/ComfyUI.
Prompt de prueba incluido:
a fox moving quickly in a beautiful winter scenery nature trees sunset tracking camera

Funcionalidades

Modelo de texto a video con etiqueta `text-to-video`.
Formato GGUF con arquitectura `mochi` y tamaño aproximado de 10B parámetros.
Cuantización disponible en variantes Q3_K_M, Q4_0, Q8_0 y F16.
Incluye archivos GGUF como `mochi-q3_k_m.gguf`, `t5xxl_fp16-q4_0.gguf`, `t5xxl_fp16-q8_0.gguf` y `t5xxl_fp16-f16.gguf`.
Pensado para ejecutarse con ComfyUI y el paquete `gguf-node`.
Flujo revisado para reducir problemas de falta de memoria y mejorar la velocidad usando `mochi_vae_fp8_e4m3fn.safetensors`.
Licencia Apache 2.0.
No aparece desplegado en proveedores de inferencia de Hugging Face.

Casos de uso

Generar clips de video a partir de descripciones textuales en ComfyUI.
Probar Mochi cuantizado en hardware con menor memoria que la versión original completa.
Evaluar workflows de ComfyUI con codificador T5XXL en GGUF.
Experimentar con `gguf-node` para inferencia local de modelos Mochi cuantizados.