Nekochu/zeroscope_v2_576w_potat1

Nekochu

Texto a video

Modelo Text-to-Video basado en Diffusers. Entrenado en el conjunto de datos potat1 con 50000 pasos durante 10 horas en una GPU única de 24GB de VRAM. Aunque el resultado del entrenamiento no es bueno.

Como usar

Instalación en Windows
 git clone https://github.com/ExponentialML/Text-To-Video-Finetuning.git
 cd Text-To-Video-Finetuning
 git lfs install
 git clone https://huggingface.co/damo-vilab/text-to-video-ms-1.7b ./models/model_scope_diffusers/
 py -m venv --clear venv && venv\Scripts\activate
 pip install -r requirements.txt
 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --no-cache --force-reinstall --version --isolated --ignore-installed

 git clone https://github.com/ExponentialML/Video-BLIP2-Preprocessor.git
 cd Video-BLIP2-Preprocessor
 pip install -r requirements.txt

 :: fix1
 echo accelerate^>=0.20.3>>requirements-dev.txt
 pip install -r requirements-dev.txt

 :: Captura
 python preprocess.py --video_directory C:\Video-BLIP2-Preprocessor\videos --config_name "My Videos" --config_save_name "my_videos"

 :: Entrenamiento
 venv\Scripts\activate && python train.py --config ./configs/v2/train_config.yaml

 :: inferencia 1024x576
 python inference.py --model zeroscope_v2_576w_potat1\zeroscope_v2_576w-checkpoint-50000 --prompt "a fast moving fancy sports car" --fps 24 --num-frames 30 --window-size 12 --width 1024 --height 576 --sdp

Funcionalidades

Modelo base: zeroscope_v2_576w
Entrenado en conjunto de datos potat1
50000 pasos de entrenamiento
10 horas de entrenamiento
Usa una GPU de 24GB de VRAM
Licencia: cc-by-nc-4.0

Casos de uso

Generación de video a partir de texto
Creación de videos descriptivos a partir de indicaciones textuales
Automatización de contenido audiovisual