Tune-A-Video - Redshift

Tune-A-Video-library
Texto a video

Tune-A-Video - Redshift es un modelo de generación de video a partir de texto. Se basa en el modelo nitrosocke/redshift-diffusion y ha sido ajustado específicamente para escenarios donde un hombre está esquiando. Utiliza una arquitectura de difusores de video y puede crear secuencias de video basadas en descripciones textuales.

Como usar

Cómo usar el modelo:

Clone the github repo
git clone https://github.com/showlab/Tune-A-Video.git

Run inference code
from tuneavideo.pipelines.pipeline_tuneavideo import TuneAVideoPipeline
from tuneavideo.models.unet import UNet3DConditionModel
from tuneavideo.util import save_videos_grid
import torch

pretrained_model_path = "nitrosocke/redshift-diffusion"
unet_model_path = "Tune-A-Video-library/redshift-man-skiing"
unet = UNet3DConditionModel.from_pretrained(unet_model_path, subfolder='unet', torch_dtype=torch.float16).to('cuda')
pipe = TuneAVideoPipeline.from_pretrained(pretrained_model_path, unet=unet, torch_dtype=torch.float16).to("cuda")
pipe.enable_xformers_memory_efficient_attention()

prompt = "(redshift style) spider man is skiing"
video = pipe(prompt, video_length=8, height=512, width=512, num_inference_steps=50, guidance_scale=7.5).videos

save_videos_grid(video, f"./{prompt}.gif")

Funcionalidades

Generación de video a partir de texto
Compatible con el modelo base nitrosocke/redshift-diffusion
Entrenado con la solicitud: 'a man is skiing.'
El modelo ajustado puede generar videos consistentemente en el estilo redshift.
Optimización eficiente de memoria mediante habilitación de Xformers.

Casos de uso

Generación de videos creativos a partir de descripciones textuales.
Creación de secuencias de video con personajes específicos realizando actividades específicas.