obvious-research/onlyflow

obvious-research

Texto a video

OnlyFlow es un modelo de texto a video de Obvious Research que condiciona la generación de movimiento mediante flujo óptico para modelos de difusión de video. Está basado en Stable Diffusion v1.5 y orientado a controlar la dinámica de videos generados, especialmente comparando distintos niveles de influencia del flujo óptico mediante el parámetro gamma.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("obvious-research/onlyflow", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

También puede probarse con la interfaz Gradio del Space de Hugging Face o con el script de inferencia del repositorio de GitHub. Para mejores resultados, si el movimiento no se comporta como se espera, conviene reducir el video de entrada a 8 fps antes de usar el modelo.

Funcionalidades

Generación de video a partir de texto con arquitectura Diffusers.
Condicionamiento de movimiento basado en flujo óptico.
Pesos publicados en formatos fp32, fp16, ckpt y safetensors.
Entrenado sobre el dataset WebVid-10M durante unas 20 horas en un nodo de 8 GPU A100.
Compatible con pruebas mediante Space de Gradio en Hugging Face y script de inferencia del repositorio de GitHub.
Sensible a la tasa de fotogramas del video de entrada; los autores recomiendan probar con videos reducidos a 8 fps si los resultados no son adecuados.

Casos de uso

Generar videos con movimiento guiado por flujo óptico.
Experimentar con control de movimiento en modelos de difusión de video.
Comparar diferentes intensidades de influencia del flujo óptico mediante valores de gamma.
Crear prototipos de herramientas artísticas de IA para video generativo.