obvious-research/onlyflow
obvious-research
Texto a video
OnlyFlow es un modelo de texto a video de Obvious Research que condiciona la generación de movimiento mediante flujo óptico para modelos de difusión de video. Está basado en Stable Diffusion v1.5 y orientado a controlar la dinámica de videos generados, especialmente comparando distintos niveles de influencia del flujo óptico mediante el parámetro gamma.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("obvious-research/onlyflow", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
También puede probarse con la interfaz Gradio del Space de Hugging Face o con el script de inferencia del repositorio de GitHub. Para mejores resultados, si el movimiento no se comporta como se espera, conviene reducir el video de entrada a 8 fps antes de usar el modelo.
Funcionalidades
- Generación de video a partir de texto con arquitectura Diffusers.
- Condicionamiento de movimiento basado en flujo óptico.
- Pesos publicados en formatos fp32, fp16, ckpt y safetensors.
- Entrenado sobre el dataset WebVid-10M durante unas 20 horas en un nodo de 8 GPU A100.
- Compatible con pruebas mediante Space de Gradio en Hugging Face y script de inferencia del repositorio de GitHub.
- Sensible a la tasa de fotogramas del video de entrada; los autores recomiendan probar con videos reducidos a 8 fps si los resultados no son adecuados.
Casos de uso
- Generar videos con movimiento guiado por flujo óptico.
- Experimentar con control de movimiento en modelos de difusión de video.
- Comparar diferentes intensidades de influencia del flujo óptico mediante valores de gamma.
- Crear prototipos de herramientas artísticas de IA para video generativo.