Insta360-Research/DiT360-Panorama-Image-Generation

Insta360-Research

Texto a imagen

DiT360 es un modelo de generación de imágenes panorámicas de alta fidelidad basado en Diffusion Transformers. Está entrenado con un esquema híbrido que combina datos de perspectiva y panorámicos para mejorar el realismo perceptivo, la continuidad de bordes y la fidelidad geométrica en tareas de texto a panorama, inpainting y outpainting.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "Insta360-Research/DiT360-Panorama-Image-Generation",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso desde el repositorio oficial:
git clone https://github.com/Insta360-Research-Team/DiT360.git
cd DiT360

conda create -n dit360 python=3.12
conda activate dit360

pip install torch==2.6.0 torchvision==0.21.0
pip install -r requirements.txt

python inference.py

Funcionalidades

Generación de imágenes panorámicas a partir de texto.
Entrenamiento híbrido con datos de perspectiva y datos panorámicos.
Guía cruzada entre dominios a nivel de imagen para mejorar calidad perceptiva, diversidad y fotorealismo.
Supervisión híbrida a nivel de tokens con circular padding, yaw loss y cube loss.
Diseñado para mejorar continuidad de límites, robustez rotacional y conciencia de distorsión.
Basado en FLUX.1-dev y distribuido en formato Diffusers/Safetensors con licencia MIT.

Casos de uso

Crear panoramas fotorrealistas de alta fidelidad desde prompts de texto.
Generar imágenes panorámicas 360 con mejor consistencia en los bordes.
Realizar tareas de text-to-panorama, inpainting y outpainting panorámico.
Prototipar experiencias visuales inmersivas, contenido 360 y entornos para visualización panorámica.