zeroscope_v2_576w

cerspense

Texto a video

Un modelo de video basado en Modelscope sin marcas de agua, optimizado para producir composiciones de alta calidad en formato 16:9 y una salida de video fluida. Este modelo fue entrenado a partir de los pesos originales usando 9,923 clips y 29,769 fotogramas etiquetados a 24 cuadros por segundo y una resolución de 576x320. zeroscope_v2_576w está específicamente diseñado para mejorar la resolución con zeroscope_v2_XL usando vid2vid en la extensión text2video 1111 por kabachuha. Al utilizar este modelo como un paso preliminar, se permite obtener composiciones generales superiores a resoluciones más altas en zeroscope_v2_XL, permitiendo una exploración más rápida en 576x320 antes de pasar a un renderizado de alta resolución.

Como usar

Uso con la extensión text2video 1111
Descargar archivos en la carpeta zs2_576w.
Reemplazar los archivos respectivos en el directorio 'stable-diffusion-webui\models\ModelScope\t2v'.
Recomendaciones de aumento de resolución
Para mejorar la resolución, se recomienda usar zeroscope_v2_XL vía vid2vid en la extensión 1111. Funciona mejor a 1024x576 con una fuerza de denoise entre 0.66 y 0.85. Recuerde utilizar el mismo prompt que se usó para generar el clip original.
Uso en 🧨 Diffusers
Primero, instalemos las bibliotecas necesarias:
$ pip install diffusers transformers accelerate torch

Ahora, generemos un video:
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained('cerspense/zeroscope_v2_576w', torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = 'Darth Vader is surfing on waves'
video_frames = pipe(prompt, num_inference_steps=40, height=320, width=576, num_frames=24).frames
video_path = export_to_video(video_frames)

Funcionalidades

Modelo de video sin marcas de agua
Optimizado para producciones de calidad 16:9
Entrenado con 9,923 clips y 29,769 fotogramas etiquetados
Resolución de 576x320 a 24 cuadros por segundo
Diseñado para mejorar la resolución con zeroscope_v2_XL
Utiliza 7.9GB de VRAM al renderizar 30 cuadros a 576x320

Casos de uso

Producción de video de alta calidad sin marcas de agua
Creación de videos en formato 16:9
Aumento de resolución de videos iniciales
Renderizado de videos para exploración rápida y transiciones a alta resolución