wikeeyang/SRPO-for-ComfyUI

wikeeyang

Texto a imagen

Versión convertida y cuantizada del modelo tencent/SRPO para que pueda cargarse y generar imágenes correctamente en entornos ComfyUI. Está basada en FLUX.1 Dev y orientada a mejorar el realismo y la calidad estética mediante alineación de modelos de difusión con preferencias humanas finas usando Semantic Relative Preference Optimization (SRPO).

Como usar

Instalación y ejemplo con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("wikeeyang/SRPO-for-ComfyUI", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

También está pensado para uso local en ComfyUI. La versión bf16 se indica como disponible en ModelScope: https://www.modelscope.cn/models/wikeeyang/SRPO-for-ComfyUI

Funcionalidades

Modelo de texto a imagen basado en difusión.
Conversión de tencent/SRPO adaptada para usuarios de ComfyUI.
Versiones cuantizadas fp8_e4m3fn, Q8_0 y Q4_1 para facilitar la carga local.
Mantiene los efectos normales de generación del modelo original SRPO.
Entrenado sobre FLUX.1 Dev con el dataset HPD y recompensas HPSv2.
Usa Direct-Align para alinear la trayectoria completa de difusión evitando cómputo costoso en múltiples pasos.
SRPO formula recompensas condicionadas por texto para ajustar preferencias positivas y negativas en línea.
Tamaño indicado: 12B parámetros; variantes GGUF de 7.53 GB en Q4_1 y 12.7 GB en Q8_0.

Casos de uso

Generación local de imágenes en ComfyUI con un modelo SRPO cuantizado.
Creación de imágenes texto-a-imagen con mayor realismo y calidad estética respecto al modelo base ajustado.
Experimentación con alineación de preferencias humanas en modelos de difusión.
Uso de variantes cuantizadas para reducir requisitos de memoria en flujos de generación de imágenes.