BAAI/nova-d48w1024-osp480

BAAI

Texto a video

NOVA d48w1024-osp480 es un modelo autoregresivo de generación de video a partir de texto desarrollado por BAAI. Tiene 645M parámetros, no está cuantizado, usa precisión FP16, genera a resolución 768x480 y combina un codificador de texto Phi-2 con el tokenizador de video VAE OpenSoraPlanV1.2-VAE. Está pensado para generar y modificar videos desde prompts de texto, especialmente en contextos de investigación, educación, creación visual y análisis de modelos generativos.

Como usar

Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate

Ejemplo de carga desde Diffusers:
import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("BAAI/nova-d48w1024-osp480", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso recomendado con NOVAPipeline:
pip install diffusers transformers accelerate imageio[ffmpeg]
pip install git+ssh://[email protected]/baaivision/NOVA.git

import torch
from diffnext.pipelines import NOVAPipeline
from diffnext.utils import export_to_image, export_to_video

model_id = "BAAI/nova-d48w1024-osp480"
model_args = {"torch_dtype": torch.float16, "trust_remote_code": True}
pipe = NOVAPipeline.from_pretrained(model_id, **model_args)
pipe = pipe.to("cuda")

prompt = "Many spotted jellyfish pulsating under water."

image = pipe(prompt, max_latent_length=1).frames[0, 0]
export_to_image(image, "jellyfish.jpg")

video = pipe(prompt, max_latent_length=9).frames[0]
export_to_video(video, "jellyfish.mp4", fps=12)

# Increase AR and diffusion steps for better video quality.
video = pipe(
    prompt,
    max_latent_length=9,
    num_inference_steps=128,  # default: 64
    num_diffusion_steps=100,  # default: 25
).frames[0]
export_to_video(video, "jellyfish_v2.mp4", fps=12)

Funcionalidades

Generación de video a partir de prompts de texto.
Arquitectura NOVA autoregresiva sin cuantización vectorial.
Modelo Diffusers/Safetensors compatible con NOVAPipeline.
Tamaño compacto de 645M parámetros frente a modelos de video más grandes.
Resolución objetivo de 768x480.
Precisión torch.float16 FP16.
Puede producir imágenes individuales usando max_latent_length=1 o videos usando secuencias latentes más largas.
Licencia Apache 2.0.

Casos de uso

Investigación sobre modelos generativos de video.
Prototipos de herramientas educativas o creativas basadas en generación audiovisual.
Creación de piezas visuales, arte generativo, diseño y exploración estética.
Evaluación de limitaciones y sesgos en modelos generativos entrenados con datos web.
Investigación sobre despliegue seguro de modelos capaces de generar contenido potencialmente dañino.