shuttleai/shuttle-3-diffusion

shuttleai

Texto a imagen

Shuttle 3 Diffusion es un modelo de generación de imágenes a partir de texto basado en Flux.1 Schnell. Está diseñado para producir imágenes detalladas y variadas en solo 4 pasos, con mejoras en calidad visual, tipografía, comprensión de prompts complejos y eficiencia de recursos. Puede funcionar en un modo tipo refinador al superar los 10 pasos, mejorando detalles sin cambiar la composición.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "shuttleai/shuttle-3-diffusion",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Venus floating market at dawn, fantasy digital art, highly detailed, atmospheric lighting with film-like light leaks, impressive background, studio photo style, cinematic, intricate details."
image = pipe(prompt).images[0]

Ejemplo completo con configuración de tamaño, guidance y pasos:
pip install -U diffusers

import torch
from diffusers import DiffusionPipeline

# Load the diffusion pipeline from a pretrained model, using bfloat16 for tensor types.
pipe = DiffusionPipeline.from_pretrained(
    "shuttleai/shuttle-3-diffusion",
    torch_dtype=torch.bfloat16
).to("cuda")

# Uncomment the following line to save VRAM by offloading the model to CPU if needed.
# pipe.enable_model_cpu_offload()

# Set your prompt for image generation.
prompt = "A cat holding a sign that says hello world"

# Generate the image using the diffusion pipeline.
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=3.5,
    num_inference_steps=4,
    max_sequence_length=256,
    # generator=torch.Generator("cpu").manual_seed(0)
).images[0]

# Save the generated image.
image.save("shuttle.png")

También puede ejecutarse mediante la API de ShuttleAI o en ComfyUI usando el archivo Safetensors del modelo.

Funcionalidades

Generación texto-a-imagen con Diffusers y FluxPipeline/DiffusionPipeline.
Produce imágenes de alta calidad en 4 pasos de inferencia.
Licencia Apache 2.0.
Variantes disponibles en bfloat16, GGUF y fp8 para distintos entornos de hardware.
Formato Safetensors.
Optimizado para mejor detalle, color, tipografía y comprensión de prompts complejos.
Puede usarse con Diffusers, ComfyUI, Draw Things, DiffusionBee y la API de ShuttleAI.
Basado en Flux.1 Schnell y parcialmente desdestilado durante el entrenamiento.

Casos de uso

Crear ilustraciones, arte digital y escenas fantásticas a partir de prompts descriptivos.
Generar imágenes fotorealistas o cinematográficas con iluminación y composición detalladas.
Producir imágenes cuadradas de 1024x1024 con pocos pasos de inferencia.
Ejecutar generación local en GPUs compatibles mediante Diffusers o ComfyUI.
Probar flujos de generación eficientes donde se necesita buena calidad con bajo número de pasos.