shuttleai/shuttle-jaguar
shuttleai
Texto a imagen
Shuttle Jaguar es un modelo de generación de imágenes a partir de texto basado en FluxPipeline, diseñado para producir imágenes estéticas, cinematográficas y realistas desde prompts textuales en solo cuatro pasos. Está publicado con licencia Apache 2.0 y ofrece variantes de precisión y formatos como bfloat16, fp8 y GGUF para adaptarse a distintos tipos de hardware.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("shuttleai/shuttle-jaguar", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo completo con Diffusers:
import torch
from diffusers import DiffusionPipeline
# Load the diffusion pipeline from a pretrained model, using bfloat16 for tensor types.
pipe = DiffusionPipeline.from_pretrained(
"shuttleai/shuttle-jaguar",
torch_dtype=torch.bfloat16
).to("cuda")
# Uncomment the following line to save VRAM by offloading the model to CPU if needed.
# pipe.enable_model_cpu_offload()
# Uncomment the lines below to enable torch.compile for potential performance boosts on compatible GPUs.
# Note that this can increase loading times considerably.
# pipe.transformer.to(memory_format=torch.channels_last)
# pipe.transformer = torch.compile(
# pipe.transformer, mode="max-autotune", fullgraph=True
# )
# Set your prompt for image generation.
prompt = "A cat holding a sign that says hello world"
# Generate the image using the diffusion pipeline.
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
num_inference_steps=4,
max_sequence_length=256,
# Uncomment the line below to use a manual seed for reproducible results.
# generator=torch.Generator("cpu").manual_seed(0)
).images[0]
# Save the generated image.
image.save("shuttle.png")
También puede usarse vía API a través de ShuttleAI y en inferencia local con ComfyUI usando el archivo safetensors del modelo.
Funcionalidades
- Generación texto-a-imagen con Diffusers y arquitectura Flux.
- Inferencia rápida en 4 pasos de difusión.
- Enfoque en imágenes realistas, cinematográficas y de alta calidad estética.
- Modelo de 12B parámetros con variantes GGUF cuantizadas.
- Formatos y precisiones disponibles: bfloat16, fp8, GGUF, Q4_K_S, Q6_K, Q8_0 y BF16.
- Licencia Apache 2.0.
- Compatible con flujos locales mediante Diffusers y ComfyUI.
Casos de uso
- Crear imágenes realistas y cinematográficas desde descripciones en lenguaje natural.
- Generar arte conceptual, escenas estilizadas o visuales promocionales con alta calidad estética.
- Ejecutar generación local de imágenes con Diffusers o ComfyUI.
- Usar variantes cuantizadas GGUF en hardware con distintas capacidades de memoria.
- Prototipar flujos rápidos de texto-a-imagen que requieran pocos pasos de inferencia.