Insta360-Research/DiT360-Panorama-Image-Generation
Insta360-Research
Texto a imagen
DiT360 es un modelo de generación de imágenes panorámicas de alta fidelidad basado en Diffusion Transformers. Está entrenado con un esquema híbrido que combina datos de perspectiva y panorámicos para mejorar el realismo perceptivo, la continuidad de bordes y la fidelidad geométrica en tareas de texto a panorama, inpainting y outpainting.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"Insta360-Research/DiT360-Panorama-Image-Generation",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso desde el repositorio oficial:
git clone https://github.com/Insta360-Research-Team/DiT360.git
cd DiT360
conda create -n dit360 python=3.12
conda activate dit360
pip install torch==2.6.0 torchvision==0.21.0
pip install -r requirements.txt
python inference.py
Funcionalidades
- Generación de imágenes panorámicas a partir de texto.
- Entrenamiento híbrido con datos de perspectiva y datos panorámicos.
- Guía cruzada entre dominios a nivel de imagen para mejorar calidad perceptiva, diversidad y fotorealismo.
- Supervisión híbrida a nivel de tokens con circular padding, yaw loss y cube loss.
- Diseñado para mejorar continuidad de límites, robustez rotacional y conciencia de distorsión.
- Basado en FLUX.1-dev y distribuido en formato Diffusers/Safetensors con licencia MIT.
Casos de uso
- Crear panoramas fotorrealistas de alta fidelidad desde prompts de texto.
- Generar imágenes panorámicas 360 con mejor consistencia en los bordes.
- Realizar tareas de text-to-panorama, inpainting y outpainting panorámico.
- Prototipar experiencias visuales inmersivas, contenido 360 y entornos para visualización panorámica.