calcuis/mochi-gguf

calcuis

Texto a video

Versión cuantizada en formato GGUF de Mochi, un modelo de texto a video basado en genmo/mochi-1-preview y el repaquetado de Comfy-Org. Incluye el modelo principal, el codificador GGUF y el VAE GGUF para ejecutarlo localmente con gguf-connector o mediante ComfyUI usando gguf-node.

Como usar

Ejecutar directamente con gguf-connector desde un directorio que contenga archivos GGUF:
ggc m1

El selector permite elegir entre archivos como:
pig-mochi-q3_k_m.gguf
pig-mochi-q4_1.gguf
pig-mochi-q8_0.gguf

Uso con gguf-node vía ComfyUI:
Arrastrar mochi a ./ComfyUI/models/diffusion_models
Arrastrar t5xxl a ./ComfyUI/models/text_encoders
Arrastrar vae a ./ComfyUI/models/vae
Arrastrar el video demo al navegador para cargar el workflow

Prompt de ejemplo:
a pinky pig moving quickly in a beautiful winter scenery nature trees sunset tracking camera

Funcionalidades

Modelo de texto a video con arquitectura Mochi.
Cuantización GGUF disponible en varios tamaños y precisiones, incluyendo Q2_K, Q3_K_M, Q4, Q5, Q6_K, Q8_0 y F16.
Incluye conjunto completo GGUF: modelo, codificador y decodificador/VAE.
Versión con tensores corregidos para cargar más rápido con el conjunto GGUF completo.
Codificador actualizado de fp16/fp8 a fp32 para mejorar compatibilidad con máquinas antiguas sin aumentar tamaño ni consumo de memoria.
Nuevo decodificador VAE GGUF fp32, con calidad mejorada y menor requisito de RAM frente a alternativas safetensors fp16 según la ficha del modelo.
No está desplegado actualmente por proveedores de inferencia en Hugging Face.

Casos de uso

Generación local de video a partir de prompts de texto.
Pruebas de Mochi en hardware con memoria limitada usando cuantizaciones GGUF.
Flujos de trabajo de texto a video en ComfyUI con gguf-node.
Experimentación con diferentes niveles de cuantización para equilibrar calidad, velocidad, tamaño de archivo y consumo de RAM.