Tune-A-VideKO - Korean Stable Diffusion v1-5

kyujinpy
Texto a video

Tune-A-VideKO es un modelo de difusión estable coreano basado en Bingsu/my-korean-stable-diffusion-v1-5. Está diseñado para generar videos a partir de texto utilizando una tubería de ajuste de video. Este modelo ha sido afinado específicamente para soportar tareas de generación de video basada en texto en coreano.

Como usar

Clone el repositorio git
git clone https://github.com/showlab/Tune-A-Video.git

Ejecute el código de inferencia
```python
from tuneavideo.pipelines.pipeline_tuneavideo import TuneAVideoPipeline
from tuneavideo.models.unet import UNet3DConditionModel
from tuneavideo.util import save_videos_grid
import torch

pretrained_model_path = "Bingsu/my-korean-stable-diffusion-v1-5"
unet_model_path = "kyujinpy/Tune-A-VideKO-v1-5"
unet = UNet3DConditionModel.from_pretrained(unet_model_path, subfolder='unet', torch_dtype=torch.float16).to('cuda')
pipe = TuneAVideoPipeline.from_pretrained(pretrained_model_path, unet=unet, torch_dtype=torch.float16).to("cuda")
pipe.enable_xformers_memory_efficient_attention()

prompt = "흰색 옷을 입은 남자가 바다를 걷고 있습니다"
video = pipe(prompt, video_length=24, height=512, width=512, num_inference_steps=50, guidance_scale=12.5).videos

save_videos_grid(video, f."./{prompt}.gif")

Funcionalidades

Generación de video a partir de texto
Uso de un modelo UNet3D de condición para la inferencia
Eficiente en la memoria gracias a xformers
Resolución de video de 512x512 píxeles
Soporta prompts en coreano

Casos de uso

Generación de clips de video a partir de descripciones textuales en coreano
Creación de contenido multimedia basado en texto
Aplicaciones en medios y entretenimiento
Producción de material educativo y publicitario