lodestones/Chroma1-Base
lodestones
Texto a imagen
Chroma1-Base es un modelo fundacional de texto a imagen con 8.9 mil millones de parámetros, basado en FLUX.1-schnell y publicado con licencia Apache 2.0. Está diseñado como un modelo base neutral y flexible para fine-tuning, investigación y creación de modelos generativos especializados.
Como usar
Instalación y uso con Diffusers:
pip install transformers diffusers sentencepiece accelerate
import torch
from diffusers import ChromaPipeline
pipe = ChromaPipeline.from_pretrained("lodestones/Chroma1-Base", torch_dtype=torch.bfloat16)
pipe.enable_model_cpu_offload()
prompt = [
"A high-fashion close-up portrait of a blonde woman in clear sunglasses. The image uses a bold teal and red color split for dramatic lighting. The background is a simple teal-green. The photo is sharp and well-composed, and is designed for viewing with anaglyph 3D glasses for optimal effect. It looks professionally done."
]
negative_prompt = ["low quality, ugly, unfinished, out of focus, deformed, disfigure, blurry, smudged, restricted palette, flat colors"]
image = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
generator=torch.Generator("cpu").manual_seed(433),
num_inference_steps=40,
guidance_scale=3.0,
num_images_per_prompt=1,
).images[0]
image.save("chroma.png")
También puede usarse en ComfyUI colocando el codificador de texto T5 XXL en ComfyUI/models/clip, el VAE de FLUX en ComfyUI/models/vae, el checkpoint de Chroma en ComfyUI/models/diffusion_models y cargando el workflow JSON de Chroma.
Funcionalidades
- Modelo base de alto rendimiento de 8.9B parámetros construido sobre la arquitectura FLUX.1.
- Pensado para fine-tuning en estilos, conceptos, personajes o dominios visuales específicos.
- Licencia Apache 2.0, apta para uso, modificación y construcción de derivados.
- Entrenado con una muestra curada de 5M ejemplos a partir de un conjunto inicial de 20M, incluyendo estilos artísticos, fotográficos y de nicho.
- Incluye modificaciones arquitectónicas como sustitución de una capa de codificación temporal sobredimensionada, enmascaramiento de tokens de padding T5 y distribución personalizada de timesteps.
- Compatible con Diffusers y flujos avanzados en ComfyUI.
Casos de uso
- Fine-tuning de modelos de texto a imagen para estilos visuales, conceptos o personajes concretos.
- Investigación sobre comportamiento, alineamiento y seguridad de modelos generativos.
- Uso como componente fundacional dentro de sistemas de IA generativa más grandes.
- Creación artística y experimentación visual con pipelines Diffusers o ComfyUI.