Harahan/QVGen-Wan-1_3B-W4A4
Harahan
Texto a video
Modelo de generación de texto a vídeo basado en Wan2.1-T2V-1.3B-Diffusers y cuantizado con QVGen en configuración W4A4. Está diseñado para acercarse a la calidad de precisión completa usando pesos y activaciones de 4 bits, con el objetivo de reducir el coste de inferencia de modelos generativos de vídeo manteniendo buena calidad visual.
Como usar
Instalación y ejemplo con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Harahan/QVGen-Wan-1_3B-W4A4", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
La página también remite al repositorio oficial del proyecto QVGen para instrucciones completas de uso.
Funcionalidades
- Generación de vídeo a partir de texto mediante Diffusers.
- Cuantización W4A4: pesos de 4 bits y activaciones de 4 bits.
- Checkpoint asociado al trabajo QVGen, que busca llevar los modelos generativos de vídeo cuantizados a calidad comparable con precisión completa.
- Basado en Wan-AI/Wan2.1-T2V-1.3B-Diffusers.
- Entrenado o ajustado usando el dataset OpenVid-1M.
- Distribuido en formato Safetensors bajo licencia Apache 2.0.
Casos de uso
- Generar vídeos desde prompts de texto con un modelo Wan 1.3B cuantizado.
- Experimentar con inferencia de modelos de vídeo de menor precisión para reducir requisitos de memoria y cómputo.
- Evaluar la calidad de modelos generativos de vídeo cuantizados frente a versiones de precisión completa.
- Investigación en cuantización de modelos de difusión y generación de vídeo.