AbstractPhil/sd15-flow-matching

AbstractPhil

Texto a imagen

Modelo experimental de texto a imagen basado en Stable Diffusion 1.5 que intenta destilar SD1.5 mediante flow matching con predicción v y guía geométrica del modelo GeoDavidCollective. La tarjeta indica que el entrenamiento está en curso, que la calidad no está validada y que no debe usarse en producción. El objetivo de investigación es comprobar si una evaluación geométrica por bloques puede ayudar a preservar estructura interna, estabilidad y aprendizaje durante la destilación.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "AbstractPhil/sd15-flow-matching",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

La tarjeta también describe una inferencia conceptual con predicción v, pero avisa que los detalles de implementación aún están por validar:
# Pseudocode - implementation details TBD
x_t = noise
for t in reversed(timesteps):
    v = student_unet(x_t, t, text_embeddings)
    x_t = step(x_t, v, t)  # v-prediction update
image = vae.decode(x_t)

Requiere VAE y codificador de texto de SD1.5, que no están incluidos en los checkpoints de estudiante mencionados.

Funcionalidades

Generación texto-a-imagen mediante Diffusers.
Destilación experimental de Stable Diffusion 1.5 con flow matching y predicción v.
Uso de un profesor SD1.5 UNet congelado y un estudiante UNet entrenable.
Guía geométrica por bloques usando GeoDavidCollective/David como evaluador congelado.
Ponderación adaptativa de pérdidas por bloque según error temporal, entropía de patrones y coherencia geométrica.
Entrenamiento descrito con prompts sintéticos, AdamW, FP16, CosineAnnealingLR y recorte de gradiente.
Licencia MIT.
Modelo de investigación con problemas conocidos: imágenes tipo blobs, checkpoints defectuosos anteriores, inferencia no validada y dependencia de VAE/codificador de texto de SD1.5.

Casos de uso

Investigación sobre destilación de Stable Diffusion 1.5 con flow matching.
Pruebas de modelos de texto a imagen con predicción v y samplers compatibles.
Estudio de guía geométrica por bloques para conservar estructura interna durante entrenamiento.
Comparación experimental frente a destilación vanilla sin David/GeoDavidCollective.
Análisis de checkpoints tempranos y comportamiento de convergencia en modelos SD1.5 modificados.