AbstractPhil/sd15-flow-matching
Modelo experimental de texto a imagen basado en Stable Diffusion 1.5 que intenta destilar SD1.5 mediante flow matching con predicción v y guía geométrica del modelo GeoDavidCollective. La tarjeta indica que el entrenamiento está en curso, que la calidad no está validada y que no debe usarse en producción. El objetivo de investigación es comprobar si una evaluación geométrica por bloques puede ayudar a preservar estructura interna, estabilidad y aprendizaje durante la destilación.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"AbstractPhil/sd15-flow-matching",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
La tarjeta también describe una inferencia conceptual con predicción v, pero avisa que los detalles de implementación aún están por validar:
# Pseudocode - implementation details TBD
x_t = noise
for t in reversed(timesteps):
v = student_unet(x_t, t, text_embeddings)
x_t = step(x_t, v, t) # v-prediction update
image = vae.decode(x_t)
Requiere VAE y codificador de texto de SD1.5, que no están incluidos en los checkpoints de estudiante mencionados.
Funcionalidades
- Generación texto-a-imagen mediante Diffusers.
- Destilación experimental de Stable Diffusion 1.5 con flow matching y predicción v.
- Uso de un profesor SD1.5 UNet congelado y un estudiante UNet entrenable.
- Guía geométrica por bloques usando GeoDavidCollective/David como evaluador congelado.
- Ponderación adaptativa de pérdidas por bloque según error temporal, entropía de patrones y coherencia geométrica.
- Entrenamiento descrito con prompts sintéticos, AdamW, FP16, CosineAnnealingLR y recorte de gradiente.
- Licencia MIT.
- Modelo de investigación con problemas conocidos: imágenes tipo blobs, checkpoints defectuosos anteriores, inferencia no validada y dependencia de VAE/codificador de texto de SD1.5.
Casos de uso
- Investigación sobre destilación de Stable Diffusion 1.5 con flow matching.
- Pruebas de modelos de texto a imagen con predicción v y samplers compatibles.
- Estudio de guía geométrica por bloques para conservar estructura interna durante entrenamiento.
- Comparación experimental frente a destilación vanilla sin David/GeoDavidCollective.
- Análisis de checkpoints tempranos y comportamiento de convergencia en modelos SD1.5 modificados.