shuttleai/shuttle-jaguar

shuttleai

Texto a imagen

Shuttle Jaguar es un modelo de generación de imágenes a partir de texto basado en FluxPipeline, diseñado para producir imágenes estéticas, cinematográficas y realistas desde prompts textuales en solo cuatro pasos. Está publicado con licencia Apache 2.0 y ofrece variantes de precisión y formatos como bfloat16, fp8 y GGUF para adaptarse a distintos tipos de hardware.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("shuttleai/shuttle-jaguar", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo completo con Diffusers:
import torch
from diffusers import DiffusionPipeline

# Load the diffusion pipeline from a pretrained model, using bfloat16 for tensor types.
pipe = DiffusionPipeline.from_pretrained(
    "shuttleai/shuttle-jaguar",
    torch_dtype=torch.bfloat16
).to("cuda")

# Uncomment the following line to save VRAM by offloading the model to CPU if needed.
# pipe.enable_model_cpu_offload()

# Uncomment the lines below to enable torch.compile for potential performance boosts on compatible GPUs.
# Note that this can increase loading times considerably.
# pipe.transformer.to(memory_format=torch.channels_last)
# pipe.transformer = torch.compile(
#     pipe.transformer, mode="max-autotune", fullgraph=True
# )

# Set your prompt for image generation.
prompt = "A cat holding a sign that says hello world"

# Generate the image using the diffusion pipeline.
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=3.5,
    num_inference_steps=4,
    max_sequence_length=256,
    # Uncomment the line below to use a manual seed for reproducible results.
    # generator=torch.Generator("cpu").manual_seed(0)
).images[0]

# Save the generated image.
image.save("shuttle.png")

También puede usarse vía API a través de ShuttleAI y en inferencia local con ComfyUI usando el archivo safetensors del modelo.

Funcionalidades

Generación texto-a-imagen con Diffusers y arquitectura Flux.
Inferencia rápida en 4 pasos de difusión.
Enfoque en imágenes realistas, cinematográficas y de alta calidad estética.
Modelo de 12B parámetros con variantes GGUF cuantizadas.
Formatos y precisiones disponibles: bfloat16, fp8, GGUF, Q4_K_S, Q6_K, Q8_0 y BF16.
Licencia Apache 2.0.
Compatible con flujos locales mediante Diffusers y ComfyUI.

Casos de uso

Crear imágenes realistas y cinematográficas desde descripciones en lenguaje natural.
Generar arte conceptual, escenas estilizadas o visuales promocionales con alta calidad estética.
Ejecutar generación local de imágenes con Diffusers o ComfyUI.
Usar variantes cuantizadas GGUF en hardware con distintas capacidades de memoria.
Prototipar flujos rápidos de texto-a-imagen que requieran pocos pasos de inferencia.