Tune-A-Video - Redshift
Tune-A-Video-library
Texto a video
Tune-A-Video - Redshift es un modelo de generación de video a partir de texto. Se basa en el modelo nitrosocke/redshift-diffusion y ha sido ajustado específicamente para escenarios donde un hombre está esquiando. Utiliza una arquitectura de difusores de video y puede crear secuencias de video basadas en descripciones textuales.
Como usar
Cómo usar el modelo:
Clone the github repo
git clone https://github.com/showlab/Tune-A-Video.git
Run inference code
from tuneavideo.pipelines.pipeline_tuneavideo import TuneAVideoPipeline
from tuneavideo.models.unet import UNet3DConditionModel
from tuneavideo.util import save_videos_grid
import torch
pretrained_model_path = "nitrosocke/redshift-diffusion"
unet_model_path = "Tune-A-Video-library/redshift-man-skiing"
unet = UNet3DConditionModel.from_pretrained(unet_model_path, subfolder='unet', torch_dtype=torch.float16).to('cuda')
pipe = TuneAVideoPipeline.from_pretrained(pretrained_model_path, unet=unet, torch_dtype=torch.float16).to("cuda")
pipe.enable_xformers_memory_efficient_attention()
prompt = "(redshift style) spider man is skiing"
video = pipe(prompt, video_length=8, height=512, width=512, num_inference_steps=50, guidance_scale=7.5).videos
save_videos_grid(video, f"./{prompt}.gif")
Funcionalidades
- Generación de video a partir de texto
- Compatible con el modelo base nitrosocke/redshift-diffusion
- Entrenado con la solicitud: 'a man is skiing.'
- El modelo ajustado puede generar videos consistentemente en el estilo redshift.
- Optimización eficiente de memoria mediante habilitación de Xformers.
Casos de uso
- Generación de videos creativos a partir de descripciones textuales.
- Creación de secuencias de video con personajes específicos realizando actividades específicas.