wikeeyang/SRPO-for-ComfyUI
wikeeyang
Texto a imagen
Versión convertida y cuantizada del modelo tencent/SRPO para que pueda cargarse y generar imágenes correctamente en entornos ComfyUI. Está basada en FLUX.1 Dev y orientada a mejorar el realismo y la calidad estética mediante alineación de modelos de difusión con preferencias humanas finas usando Semantic Relative Preference Optimization (SRPO).
Como usar
Instalación y ejemplo con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("wikeeyang/SRPO-for-ComfyUI", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
También está pensado para uso local en ComfyUI. La versión bf16 se indica como disponible en ModelScope: https://www.modelscope.cn/models/wikeeyang/SRPO-for-ComfyUI
Funcionalidades
- Modelo de texto a imagen basado en difusión.
- Conversión de tencent/SRPO adaptada para usuarios de ComfyUI.
- Versiones cuantizadas fp8_e4m3fn, Q8_0 y Q4_1 para facilitar la carga local.
- Mantiene los efectos normales de generación del modelo original SRPO.
- Entrenado sobre FLUX.1 Dev con el dataset HPD y recompensas HPSv2.
- Usa Direct-Align para alinear la trayectoria completa de difusión evitando cómputo costoso en múltiples pasos.
- SRPO formula recompensas condicionadas por texto para ajustar preferencias positivas y negativas en línea.
- Tamaño indicado: 12B parámetros; variantes GGUF de 7.53 GB en Q4_1 y 12.7 GB en Q8_0.
Casos de uso
- Generación local de imágenes en ComfyUI con un modelo SRPO cuantizado.
- Creación de imágenes texto-a-imagen con mayor realismo y calidad estética respecto al modelo base ajustado.
- Experimentación con alineación de preferencias humanas en modelos de difusión.
- Uso de variantes cuantizadas para reducir requisitos de memoria en flujos de generación de imágenes.