calcuis/mochi-gguf
calcuis
Texto a video
Versión cuantizada en formato GGUF de Mochi, un modelo de texto a video basado en genmo/mochi-1-preview y el repaquetado de Comfy-Org. Incluye el modelo principal, el codificador GGUF y el VAE GGUF para ejecutarlo localmente con gguf-connector o mediante ComfyUI usando gguf-node.
Como usar
Ejecutar directamente con gguf-connector desde un directorio que contenga archivos GGUF:
ggc m1
El selector permite elegir entre archivos como:
pig-mochi-q3_k_m.gguf
pig-mochi-q4_1.gguf
pig-mochi-q8_0.gguf
Uso con gguf-node vía ComfyUI:
Arrastrar mochi a ./ComfyUI/models/diffusion_models
Arrastrar t5xxl a ./ComfyUI/models/text_encoders
Arrastrar vae a ./ComfyUI/models/vae
Arrastrar el video demo al navegador para cargar el workflow
Prompt de ejemplo:
a pinky pig moving quickly in a beautiful winter scenery nature trees sunset tracking camera
Funcionalidades
- Modelo de texto a video con arquitectura Mochi.
- Cuantización GGUF disponible en varios tamaños y precisiones, incluyendo Q2_K, Q3_K_M, Q4, Q5, Q6_K, Q8_0 y F16.
- Incluye conjunto completo GGUF: modelo, codificador y decodificador/VAE.
- Versión con tensores corregidos para cargar más rápido con el conjunto GGUF completo.
- Codificador actualizado de fp16/fp8 a fp32 para mejorar compatibilidad con máquinas antiguas sin aumentar tamaño ni consumo de memoria.
- Nuevo decodificador VAE GGUF fp32, con calidad mejorada y menor requisito de RAM frente a alternativas safetensors fp16 según la ficha del modelo.
- No está desplegado actualmente por proveedores de inferencia en Hugging Face.
Casos de uso
- Generación local de video a partir de prompts de texto.
- Pruebas de Mochi en hardware con memoria limitada usando cuantizaciones GGUF.
- Flujos de trabajo de texto a video en ComfyUI con gguf-node.
- Experimentación con diferentes niveles de cuantización para equilibrar calidad, velocidad, tamaño de archivo y consumo de RAM.