wikeeyang/SRPO-Refine-Quantized-v1.0

wikeeyang

Texto a imagen

Versión refinada y cuantizada de Tencent SRPO para generación de imágenes con Diffusers/GGUF. Está basada en FLUX.1 Dev y busca mejorar la claridad de las imágenes generadas y la compatibilidad del modelo frente a cargas o cuantizaciones directas en herramientas como ComfyUI. Incluye variantes cuantizadas de 8 bits y 4 bits, y mantiene el enfoque SRPO de alineación de trayectorias de difusión con preferencias humanas finas.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "wikeeyang/SRPO-Refine-Quantized-v1.0",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

La página también menciona flujos de trabajo para aplicaciones locales como Draw Things y DiffusionBee, con referencia a un archivo workflow.png.

Funcionalidades

Generación de texto a imagen basada en difusión.
Versión refinada y cuantizada del modelo tencent/SRPO.
Formatos/precisiones fp8_e4m3fn, Q8_0 y Q4_1 orientados a compatibilidad y menor uso de memoria.
Modelo de aproximadamente 12B parámetros con archivos GGUF.
Entrenado a partir de SRPO sobre FLUX.1 Dev, con datos HPD y recompensa HPSv2 según la tarjeta del modelo.
Busca mejorar realismo, estética y nitidez mediante Semantic Relative Preference Optimization.

Casos de uso

Generar imágenes a partir de prompts con mejor nitidez que algunas cuantizaciones directas del SRPO original.
Ejecutar una variante cuantizada de SRPO en entornos locales compatibles con GGUF.
Experimentar con modelos de difusión alineados con preferencias humanas para mejorar realismo y calidad estética.
Probar variantes Q4_1 o Q8_0 cuando se necesite equilibrar calidad, tamaño de modelo y compatibilidad de hardware.