InstantX/SD3.5-Large-IP-Adapter
InstantX
Texto a imagen
Adaptador IP para Stable Diffusion 3.5 Large desarrollado por InstantX Team. Permite usar una imagen de referencia como condición dentro del modelo, de forma similar a un prompt de texto, para guiar la generación de imágenes. Es un IP-Adapter regular integrado en los 38 bloques del transformador de SD3.5 Large.
Como usar
El código todavía no está integrado en diffusers; la tarjeta del modelo indica usar los archivos locales del repositorio.
import torch
from PIL import Image
from models.transformer_sd3 import SD3Transformer2DModel
from pipeline_stable_diffusion_3_ipa import StableDiffusion3Pipeline
model_path = 'stabilityai/stable-diffusion-3.5-large'
ip_adapter_path = './ip-adapter.bin'
image_encoder_path = "google/siglip-so400m-patch14-384"
transformer = SD3Transformer2DModel.from_pretrained(
model_path,
subfolder="transformer",
torch_dtype=torch.bfloat16
)
pipe = StableDiffusion3Pipeline.from_pretrained(
model_path,
transformer=transformer,
torch_dtype=torch.bfloat16
).to("cuda")
pipe.init_ipadapter(
ip_adapter_path=ip_adapter_path,
image_encoder_path=image_encoder_path,
nb_token=64,
)
ref_img = Image.open('./assets/1.jpg').convert('RGB')
# please note that SD3.5 Large is sensitive to highres generation like 1536x1536
image = pipe(
width=1024,
height=1024,
prompt='a cat',
negative_prompt="lowres, low quality, worst quality",
num_inference_steps=24,
guidance_scale=5.0,
generator=torch.Generator("cuda").manual_seed(42),
clip_image=ref_img,
ipadapter_scale=0.5,
).images[0]
image.save('./result.jpg')
Funcionalidades
- Generación de imagen a partir de texto con condicionamiento por imagen de referencia.
- Añade nuevas capas en los 38 bloques de Stable Diffusion 3.5 Large.
- Usa google/siglip-so400m-patch14-384 como codificador de imagen por su rendimiento superior.
- Emplea TimeResampler para proyectar las representaciones visuales.
- Configura 64 tokens de imagen para el adaptador IP.
- Compatible con flujos locales y con soporte comunitario para ComfyUI mediante Slickytail/ComfyUI-InstantX-IPAdapter-SD3.
Casos de uso
- Generar imágenes con Stable Diffusion 3.5 Large manteniendo rasgos visuales de una imagen de referencia.
- Crear variaciones visuales guiadas por una referencia y un prompt textual.
- Integrar condicionamiento por imagen en pipelines locales de SD3.5 Large.
- Experimentar con IP-Adapter en ComfyUI mediante el nodo comunitario compatible.