shuttleai/shuttle-3-diffusion
shuttleai
Texto a imagen
Shuttle 3 Diffusion es un modelo de generación de imágenes a partir de texto basado en Flux.1 Schnell. Está diseñado para producir imágenes detalladas y variadas en solo 4 pasos, con mejoras en calidad visual, tipografía, comprensión de prompts complejos y eficiencia de recursos. Puede funcionar en un modo tipo refinador al superar los 10 pasos, mejorando detalles sin cambiar la composición.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"shuttleai/shuttle-3-diffusion",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Venus floating market at dawn, fantasy digital art, highly detailed, atmospheric lighting with film-like light leaks, impressive background, studio photo style, cinematic, intricate details."
image = pipe(prompt).images[0]
Ejemplo completo con configuración de tamaño, guidance y pasos:
pip install -U diffusers
import torch
from diffusers import DiffusionPipeline
# Load the diffusion pipeline from a pretrained model, using bfloat16 for tensor types.
pipe = DiffusionPipeline.from_pretrained(
"shuttleai/shuttle-3-diffusion",
torch_dtype=torch.bfloat16
).to("cuda")
# Uncomment the following line to save VRAM by offloading the model to CPU if needed.
# pipe.enable_model_cpu_offload()
# Set your prompt for image generation.
prompt = "A cat holding a sign that says hello world"
# Generate the image using the diffusion pipeline.
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
num_inference_steps=4,
max_sequence_length=256,
# generator=torch.Generator("cpu").manual_seed(0)
).images[0]
# Save the generated image.
image.save("shuttle.png")
También puede ejecutarse mediante la API de ShuttleAI o en ComfyUI usando el archivo Safetensors del modelo.
Funcionalidades
- Generación texto-a-imagen con Diffusers y FluxPipeline/DiffusionPipeline.
- Produce imágenes de alta calidad en 4 pasos de inferencia.
- Licencia Apache 2.0.
- Variantes disponibles en bfloat16, GGUF y fp8 para distintos entornos de hardware.
- Formato Safetensors.
- Optimizado para mejor detalle, color, tipografía y comprensión de prompts complejos.
- Puede usarse con Diffusers, ComfyUI, Draw Things, DiffusionBee y la API de ShuttleAI.
- Basado en Flux.1 Schnell y parcialmente desdestilado durante el entrenamiento.
Casos de uso
- Crear ilustraciones, arte digital y escenas fantásticas a partir de prompts descriptivos.
- Generar imágenes fotorealistas o cinematográficas con iluminación y composición detalladas.
- Producir imágenes cuadradas de 1024x1024 con pocos pasos de inferencia.
- Ejecutar generación local en GPUs compatibles mediante Diffusers o ComfyUI.
- Probar flujos de generación eficientes donde se necesita buena calidad con bajo número de pasos.