SG161222/SPARK.Chroma_preview
Modelo Diffusers de texto a imagen ajustado para generar imágenes realistas. Está basado en Chroma1-HD, con 8.9B parámetros, licencia Apache 2.0 y una versión preview entrenada con 2400 imágenes entre el 14 y el 30 de octubre de 2025. El autor advierte que aún no representa la calidad final prevista y que puede ofrecer menos realismo o detalle que Chroma1-HD en algunos casos.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("SG161222/SPARK.Chroma_preview", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso en ComfyUI: colocar ae.safetensors en ComfyUI_windows_portable\ComfyUI\models\vae, t5xxl_fp16.safetensors en ComfyUI_windows_portable\ComfyUI\models\clip, y SPARK.Chroma_preview.safetensors en ComfyUI_windows_portable\ComfyUI\models\unet o ComfyUI_windows_portable\ComfyUI\models\diffusion_models. Después, cargar BasicWorkflow.json en ComfyUI y ejecutar el flujo.
Funcionalidades
- Generación realista de imágenes a partir de prompts de texto.
- Modelo fine-tuned sobre lodestones/Chroma1-HD.
- Distribuido en formato Safetensors y compatible con Diffusers.
- Compatible con ComfyUI mediante archivos VAE, CLIP y UNet/diffusion_models.
- Ajustes recomendados: dpmpp_2m simple, 40 pasos, CFG 3.5-4.0.
- Entrenado en una RTX 4090 de 24 GB durante aproximadamente 116 h 40 min.
Casos de uso
- Crear imágenes realistas a partir de descripciones textuales.
- Probar una variante preview de Chroma1-HD orientada al realismo.
- Ejecutar generación local en flujos de ComfyUI.
- Experimentar con prompts fotorealistas usando Diffusers en GPU CUDA.