ldiex/TACA
ldiex
Texto a imagen
TACA (Temperature-Adjusted Cross-modal Attention) es un método eficiente en parámetros para mejorar la alineación texto-imagen en transformadores de difusión multimodales. Reequilibra dinámicamente la interacción entre tokens visuales y textuales mediante escalado de temperatura y ajuste dependiente del timestep, reduciendo problemas de supresión de atención cross-modal y mejorando la fidelidad semántica en generación de imágenes con FLUX.1 y Stable Diffusion 3.5.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("ldiex/TACA", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso con Stable Diffusion 3.5:
from diffusers import StableDiffusionXLPipeline
import torch
# Load the base model and LoRA weights
pipe = StableDiffusionXLPipeline.from_pretrained(
"stabilityai/stable-diffusion-3.5-medium",
torch_dtype=torch.float16
)
pipe.load_lora_weights("ldiex/TACA", weight_name="taca_sd3_r64.safetensors")
pipe.to("cuda")
# Generate an image
prompt = "A majestic lion standing proudly on a rocky cliff overlooking a vast savanna at sunset."
image = pipe(prompt).images[0]
image.save("lion_sunset.png")
Uso con FLUX.1:
from diffusers import FluxPipeline
import torch
# Load the base model and LoRA weights
pipe = FluxPipeline.from_pretrained(
"black-forest-labs/FLUX.1-dev",
torch_dtype=torch.float16
)
pipe.load_lora_weights("ldiex/TACA", weight_name="taca_flux_r64.safetensors")
pipe.to("cuda")
# Generate an image
prompt = "A majestic lion standing proudly on a rocky cliff overlooking a vast savanna at sunset."
image = pipe(prompt).images[0]
image.save("lion_sunset.png")
Funcionalidades
- Modelo Text-to-Image basado en Diffusers con licencia MIT.
- Pesos LoRA para usar TACA sobre FLUX.1-dev y Stable Diffusion 3.5 Medium.
- Mejora la alineación texto-imagen en apariencia de objetos, vinculación de atributos y relaciones espaciales.
- Evaluado en T2I-CompBench, con mejoras frente a FLUX.1-Dev y SD3.5-Medium base en varias métricas de color, forma, textura y relaciones.
- Método de bajo coste computacional que ajusta la atención cross-modal sin requerir reentrenar completamente el modelo base.
Casos de uso
- Generación de imágenes desde texto con mayor fidelidad semántica al prompt.
- Mejorar composiciones donde importan atributos como color, forma o textura.
- Generar escenas con relaciones espaciales y de objetos más precisas.
- Aplicar pesos LoRA TACA sobre FLUX.1-dev o Stable Diffusion 3.5 Medium para experimentos de alineación texto-imagen.
- Investigación sobre mecanismos de atención cross-modal en modelos de difusión multimodales.