calcuis/mochi
calcuis
Texto a video
Versión cuantizada en formato GGUF de Mochi, basada en `genmo/mochi-1-preview`, preparada como paquete de prueba para `gguf-node` y flujos de ComfyUI. Está orientada a generación de video desde texto y usa arquitectura Mochi con codificador de texto T5/TT5XXL cuantizado.
Como usar
Configuración indicada por la página del modelo:
Arrastrar mochi-q3_k_m.gguf [4.31GB] a ./ComfyUI/models/diffusion_models
Arrastrar t5xxl_fp16-q4_0.gguf [2.9GB] a ./ComfyUI/models/text_encoders
Arrastrar mochi_vae_fp8_e4m3fn.safetensors [460MB] a ./ComfyUI/models/vae
Ejecución sugerida: abrir el archivo .bat del directorio principal si se usa el paquete gguf-node, y arrastrar el archivo JSON de workflow al navegador/ComfyUI.
Prompt de prueba incluido:
a fox moving quickly in a beautiful winter scenery nature trees sunset tracking camera
Funcionalidades
- Modelo de texto a video con etiqueta `text-to-video`.
- Formato GGUF con arquitectura `mochi` y tamaño aproximado de 10B parámetros.
- Cuantización disponible en variantes Q3_K_M, Q4_0, Q8_0 y F16.
- Incluye archivos GGUF como `mochi-q3_k_m.gguf`, `t5xxl_fp16-q4_0.gguf`, `t5xxl_fp16-q8_0.gguf` y `t5xxl_fp16-f16.gguf`.
- Pensado para ejecutarse con ComfyUI y el paquete `gguf-node`.
- Flujo revisado para reducir problemas de falta de memoria y mejorar la velocidad usando `mochi_vae_fp8_e4m3fn.safetensors`.
- Licencia Apache 2.0.
- No aparece desplegado en proveedores de inferencia de Hugging Face.
Casos de uso
- Generar clips de video a partir de descripciones textuales en ComfyUI.
- Probar Mochi cuantizado en hardware con menor memoria que la versión original completa.
- Evaluar workflows de ComfyUI con codificador T5XXL en GGUF.
- Experimentar con `gguf-node` para inferencia local de modelos Mochi cuantizados.