SG161222/SPARK.Chroma_preview

SG161222

Texto a imagen

Modelo Diffusers de texto a imagen ajustado para generar imágenes realistas. Está basado en Chroma1-HD, con 8.9B parámetros, licencia Apache 2.0 y una versión preview entrenada con 2400 imágenes entre el 14 y el 30 de octubre de 2025. El autor advierte que aún no representa la calidad final prevista y que puede ofrecer menos realismo o detalle que Chroma1-HD en algunos casos.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("SG161222/SPARK.Chroma_preview", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso en ComfyUI: colocar ae.safetensors en ComfyUI_windows_portable\ComfyUI\models\vae, t5xxl_fp16.safetensors en ComfyUI_windows_portable\ComfyUI\models\clip, y SPARK.Chroma_preview.safetensors en ComfyUI_windows_portable\ComfyUI\models\unet o ComfyUI_windows_portable\ComfyUI\models\diffusion_models. Después, cargar BasicWorkflow.json en ComfyUI y ejecutar el flujo.

Funcionalidades

Generación realista de imágenes a partir de prompts de texto.
Modelo fine-tuned sobre lodestones/Chroma1-HD.
Distribuido en formato Safetensors y compatible con Diffusers.
Compatible con ComfyUI mediante archivos VAE, CLIP y UNet/diffusion_models.
Ajustes recomendados: dpmpp_2m simple, 40 pasos, CFG 3.5-4.0.
Entrenado en una RTX 4090 de 24 GB durante aproximadamente 116 h 40 min.

Casos de uso

Crear imágenes realistas a partir de descripciones textuales.
Probar una variante preview de Chroma1-HD orientada al realismo.
Ejecutar generación local en flujos de ComfyUI.
Experimentar con prompts fotorealistas usando Diffusers en GPU CUDA.