Nekochu/zeroscope_v2_576w_potat1
Nekochu
Texto a video
Modelo Text-to-Video basado en Diffusers. Entrenado en el conjunto de datos potat1 con 50000 pasos durante 10 horas en una GPU única de 24GB de VRAM. Aunque el resultado del entrenamiento no es bueno.
Como usar
Instalación en Windows
git clone https://github.com/ExponentialML/Text-To-Video-Finetuning.git
cd Text-To-Video-Finetuning
git lfs install
git clone https://huggingface.co/damo-vilab/text-to-video-ms-1.7b ./models/model_scope_diffusers/
py -m venv --clear venv && venv\Scripts\activate
pip install -r requirements.txt
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --no-cache --force-reinstall --version --isolated --ignore-installed
git clone https://github.com/ExponentialML/Video-BLIP2-Preprocessor.git
cd Video-BLIP2-Preprocessor
pip install -r requirements.txt
:: fix1
echo accelerate^>=0.20.3>>requirements-dev.txt
pip install -r requirements-dev.txt
:: Captura
python preprocess.py --video_directory C:\Video-BLIP2-Preprocessor\videos --config_name "My Videos" --config_save_name "my_videos"
:: Entrenamiento
venv\Scripts\activate && python train.py --config ./configs/v2/train_config.yaml
:: inferencia 1024x576
python inference.py --model zeroscope_v2_576w_potat1\zeroscope_v2_576w-checkpoint-50000 --prompt "a fast moving fancy sports car" --fps 24 --num-frames 30 --window-size 12 --width 1024 --height 576 --sdp
Funcionalidades
- Modelo base: zeroscope_v2_576w
- Entrenado en conjunto de datos potat1
- 50000 pasos de entrenamiento
- 10 horas de entrenamiento
- Usa una GPU de 24GB de VRAM
- Licencia: cc-by-nc-4.0
Casos de uso
- Generación de video a partir de texto
- Creación de videos descriptivos a partir de indicaciones textuales
- Automatización de contenido audiovisual