Harahan/QVGen-Wan-1_3B-W4A4

Harahan

Texto a video

Modelo de generación de texto a vídeo basado en Wan2.1-T2V-1.3B-Diffusers y cuantizado con QVGen en configuración W4A4. Está diseñado para acercarse a la calidad de precisión completa usando pesos y activaciones de 4 bits, con el objetivo de reducir el coste de inferencia de modelos generativos de vídeo manteniendo buena calidad visual.

Como usar

Instalación y ejemplo con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Harahan/QVGen-Wan-1_3B-W4A4", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

La página también remite al repositorio oficial del proyecto QVGen para instrucciones completas de uso.

Funcionalidades

Generación de vídeo a partir de texto mediante Diffusers.
Cuantización W4A4: pesos de 4 bits y activaciones de 4 bits.
Checkpoint asociado al trabajo QVGen, que busca llevar los modelos generativos de vídeo cuantizados a calidad comparable con precisión completa.
Basado en Wan-AI/Wan2.1-T2V-1.3B-Diffusers.
Entrenado o ajustado usando el dataset OpenVid-1M.
Distribuido en formato Safetensors bajo licencia Apache 2.0.

Casos de uso

Generar vídeos desde prompts de texto con un modelo Wan 1.3B cuantizado.
Experimentar con inferencia de modelos de vídeo de menor precisión para reducir requisitos de memoria y cómputo.
Evaluar la calidad de modelos generativos de vídeo cuantizados frente a versiones de precisión completa.
Investigación en cuantización de modelos de difusión y generación de vídeo.