Tune-A-Video - Modern Disney

Tune-A-Video-library

Texto a video

Tune-A-Video - Modern Disney es un modelo de difusión de texto a vídeo basado en la base nitrosocke/mo-di-diffusion. Este modelo se entrena con el prompt 'un oso está tocando la guitarra'. El modelo puede generar vídeos en estilo de Disney moderno a partir de descripciones textuales.

Como usar

Para usar el modelo, sigue estos pasos:
Clona el repositorio de GitHub
git clone https://github.com/showlab/Tune-A-Video.git

Ejecuta el código de inferencia
from tuneavideo.pipelines.pipeline_tuneavideo import TuneAVideoPipeline
from tuneavideo.models.unet import UNet3DConditionModel
from tuneavideo.util import save_videos_grid
import torch

pretrained_model_path = "nitrosocke/mo-di-diffusion"
unet_model_path = "Tune-A-Video-library/mo-di-bear-guitar"
unet = UNet3DConditionModel.from_pretrained(unet_model_path, subfolder='unet', torch_dtype=torch.float16).to('cuda')
pipe = TuneAVideoPipeline.from_pretrained(pretrained_model_path, unet=unet, torch_dtype=torch.float16).to("cuda")
pipe.enable_xformers_memory_efficient_attention()

prompt = "a magical princess is playing guitar, modern disney style"
video = pipe(prompt, video_length=8, height=512, width=512, num_inference_steps=50, guidance_scale=7.5).videos

save_videos_grid(video, f"./{prompt}.gif")

Funcionalidades

Generación de vídeos a partir de texto.
Entrenado con el prompt 'un oso está tocando la guitarra'.
Basado en el modelo nitrosocke/mo-di-diffusion.

Casos de uso

Generación de vídeos en estilo Disney moderno a partir de descripciones textuales.
Creación de contenido de vídeo original basado en prompts personalizados.