Tune-A-VideKO - Korean Stable Diffusion v1-5
kyujinpy
Texto a video
Tune-A-VideKO es un modelo de difusión estable coreano basado en Bingsu/my-korean-stable-diffusion-v1-5. Está diseñado para generar videos a partir de texto utilizando una tubería de ajuste de video. Este modelo ha sido afinado específicamente para soportar tareas de generación de video basada en texto en coreano.
Como usar
Clone el repositorio git
git clone https://github.com/showlab/Tune-A-Video.git
Ejecute el código de inferencia
```python
from tuneavideo.pipelines.pipeline_tuneavideo import TuneAVideoPipeline
from tuneavideo.models.unet import UNet3DConditionModel
from tuneavideo.util import save_videos_grid
import torch
pretrained_model_path = "Bingsu/my-korean-stable-diffusion-v1-5"
unet_model_path = "kyujinpy/Tune-A-VideKO-v1-5"
unet = UNet3DConditionModel.from_pretrained(unet_model_path, subfolder='unet', torch_dtype=torch.float16).to('cuda')
pipe = TuneAVideoPipeline.from_pretrained(pretrained_model_path, unet=unet, torch_dtype=torch.float16).to("cuda")
pipe.enable_xformers_memory_efficient_attention()
prompt = "흰색 옷을 입은 남자가 바다를 걷고 있습니다"
video = pipe(prompt, video_length=24, height=512, width=512, num_inference_steps=50, guidance_scale=12.5).videos
save_videos_grid(video, f."./{prompt}.gif")
Funcionalidades
- Generación de video a partir de texto
- Uso de un modelo UNet3D de condición para la inferencia
- Eficiente en la memoria gracias a xformers
- Resolución de video de 512x512 píxeles
- Soporta prompts en coreano
Casos de uso
- Generación de clips de video a partir de descripciones textuales en coreano
- Creación de contenido multimedia basado en texto
- Aplicaciones en medios y entretenimiento
- Producción de material educativo y publicitario