lodestones/Chroma1-Base

lodestones
Texto a imagen

Chroma1-Base es un modelo fundacional de texto a imagen con 8.9 mil millones de parámetros, basado en FLUX.1-schnell y publicado con licencia Apache 2.0. Está diseñado como un modelo base neutral y flexible para fine-tuning, investigación y creación de modelos generativos especializados.

Como usar

Instalación y uso con Diffusers:

pip install transformers diffusers sentencepiece accelerate
import torch
from diffusers import ChromaPipeline

pipe = ChromaPipeline.from_pretrained("lodestones/Chroma1-Base", torch_dtype=torch.bfloat16)
pipe.enable_model_cpu_offload()

prompt = [
    "A high-fashion close-up portrait of a blonde woman in clear sunglasses. The image uses a bold teal and red color split for dramatic lighting. The background is a simple teal-green. The photo is sharp and well-composed, and is designed for viewing with anaglyph 3D glasses for optimal effect. It looks professionally done."
]
negative_prompt = ["low quality, ugly, unfinished, out of focus, deformed, disfigure, blurry, smudged, restricted palette, flat colors"]

image = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    generator=torch.Generator("cpu").manual_seed(433),
    num_inference_steps=40,
    guidance_scale=3.0,
    num_images_per_prompt=1,
).images[0]

image.save("chroma.png")

También puede usarse en ComfyUI colocando el codificador de texto T5 XXL en ComfyUI/models/clip, el VAE de FLUX en ComfyUI/models/vae, el checkpoint de Chroma en ComfyUI/models/diffusion_models y cargando el workflow JSON de Chroma.

Funcionalidades

Modelo base de alto rendimiento de 8.9B parámetros construido sobre la arquitectura FLUX.1.
Pensado para fine-tuning en estilos, conceptos, personajes o dominios visuales específicos.
Licencia Apache 2.0, apta para uso, modificación y construcción de derivados.
Entrenado con una muestra curada de 5M ejemplos a partir de un conjunto inicial de 20M, incluyendo estilos artísticos, fotográficos y de nicho.
Incluye modificaciones arquitectónicas como sustitución de una capa de codificación temporal sobredimensionada, enmascaramiento de tokens de padding T5 y distribución personalizada de timesteps.
Compatible con Diffusers y flujos avanzados en ComfyUI.

Casos de uso

Fine-tuning de modelos de texto a imagen para estilos visuales, conceptos o personajes concretos.
Investigación sobre comportamiento, alineamiento y seguridad de modelos generativos.
Uso como componente fundacional dentro de sistemas de IA generativa más grandes.
Creación artística y experimentación visual con pipelines Diffusers o ComfyUI.