ldiex/TACA

ldiex

Texto a imagen

TACA (Temperature-Adjusted Cross-modal Attention) es un método eficiente en parámetros para mejorar la alineación texto-imagen en transformadores de difusión multimodales. Reequilibra dinámicamente la interacción entre tokens visuales y textuales mediante escalado de temperatura y ajuste dependiente del timestep, reduciendo problemas de supresión de atención cross-modal y mejorando la fidelidad semántica en generación de imágenes con FLUX.1 y Stable Diffusion 3.5.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("ldiex/TACA", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso con Stable Diffusion 3.5:
from diffusers import StableDiffusionXLPipeline
import torch

# Load the base model and LoRA weights
pipe = StableDiffusionXLPipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-medium",
    torch_dtype=torch.float16
)
pipe.load_lora_weights("ldiex/TACA", weight_name="taca_sd3_r64.safetensors")
pipe.to("cuda")

# Generate an image
prompt = "A majestic lion standing proudly on a rocky cliff overlooking a vast savanna at sunset."
image = pipe(prompt).images[0]
image.save("lion_sunset.png")

Uso con FLUX.1:
from diffusers import FluxPipeline
import torch

# Load the base model and LoRA weights
pipe = FluxPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-dev",
    torch_dtype=torch.float16
)
pipe.load_lora_weights("ldiex/TACA", weight_name="taca_flux_r64.safetensors")
pipe.to("cuda")

# Generate an image
prompt = "A majestic lion standing proudly on a rocky cliff overlooking a vast savanna at sunset."
image = pipe(prompt).images[0]
image.save("lion_sunset.png")

Funcionalidades

Modelo Text-to-Image basado en Diffusers con licencia MIT.
Pesos LoRA para usar TACA sobre FLUX.1-dev y Stable Diffusion 3.5 Medium.
Mejora la alineación texto-imagen en apariencia de objetos, vinculación de atributos y relaciones espaciales.
Evaluado en T2I-CompBench, con mejoras frente a FLUX.1-Dev y SD3.5-Medium base en varias métricas de color, forma, textura y relaciones.
Método de bajo coste computacional que ajusta la atención cross-modal sin requerir reentrenar completamente el modelo base.

Casos de uso

Generación de imágenes desde texto con mayor fidelidad semántica al prompt.
Mejorar composiciones donde importan atributos como color, forma o textura.
Generar escenas con relaciones espaciales y de objetos más precisas.
Aplicar pesos LoRA TACA sobre FLUX.1-dev o Stable Diffusion 3.5 Medium para experimentos de alineación texto-imagen.
Investigación sobre mecanismos de atención cross-modal en modelos de difusión multimodales.