BAAI/nova-d48w1024-osp480
BAAI
Texto a video
NOVA d48w1024-osp480 es un modelo autoregresivo de generación de video a partir de texto desarrollado por BAAI. Tiene 645M parámetros, no está cuantizado, usa precisión FP16, genera a resolución 768x480 y combina un codificador de texto Phi-2 con el tokenizador de video VAE OpenSoraPlanV1.2-VAE. Está pensado para generar y modificar videos desde prompts de texto, especialmente en contextos de investigación, educación, creación visual y análisis de modelos generativos.
Como usar
Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate
Ejemplo de carga desde Diffusers:
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("BAAI/nova-d48w1024-osp480", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso recomendado con NOVAPipeline:
pip install diffusers transformers accelerate imageio[ffmpeg]
pip install git+ssh://[email protected]/baaivision/NOVA.git
import torch
from diffnext.pipelines import NOVAPipeline
from diffnext.utils import export_to_image, export_to_video
model_id = "BAAI/nova-d48w1024-osp480"
model_args = {"torch_dtype": torch.float16, "trust_remote_code": True}
pipe = NOVAPipeline.from_pretrained(model_id, **model_args)
pipe = pipe.to("cuda")
prompt = "Many spotted jellyfish pulsating under water."
image = pipe(prompt, max_latent_length=1).frames[0, 0]
export_to_image(image, "jellyfish.jpg")
video = pipe(prompt, max_latent_length=9).frames[0]
export_to_video(video, "jellyfish.mp4", fps=12)
# Increase AR and diffusion steps for better video quality.
video = pipe(
prompt,
max_latent_length=9,
num_inference_steps=128, # default: 64
num_diffusion_steps=100, # default: 25
).frames[0]
export_to_video(video, "jellyfish_v2.mp4", fps=12)
Funcionalidades
- Generación de video a partir de prompts de texto.
- Arquitectura NOVA autoregresiva sin cuantización vectorial.
- Modelo Diffusers/Safetensors compatible con NOVAPipeline.
- Tamaño compacto de 645M parámetros frente a modelos de video más grandes.
- Resolución objetivo de 768x480.
- Precisión torch.float16 FP16.
- Puede producir imágenes individuales usando max_latent_length=1 o videos usando secuencias latentes más largas.
- Licencia Apache 2.0.
Casos de uso
- Investigación sobre modelos generativos de video.
- Prototipos de herramientas educativas o creativas basadas en generación audiovisual.
- Creación de piezas visuales, arte generativo, diseño y exploración estética.
- Evaluación de limitaciones y sesgos en modelos generativos entrenados con datos web.
- Investigación sobre despliegue seguro de modelos capaces de generar contenido potencialmente dañino.