wikeeyang/SRPO-Refine-Quantized-v1.0
wikeeyang
Texto a imagen
Versión refinada y cuantizada de Tencent SRPO para generación de imágenes con Diffusers/GGUF. Está basada en FLUX.1 Dev y busca mejorar la claridad de las imágenes generadas y la compatibilidad del modelo frente a cargas o cuantizaciones directas en herramientas como ComfyUI. Incluye variantes cuantizadas de 8 bits y 4 bits, y mantiene el enfoque SRPO de alineación de trayectorias de difusión con preferencias humanas finas.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"wikeeyang/SRPO-Refine-Quantized-v1.0",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
La página también menciona flujos de trabajo para aplicaciones locales como Draw Things y DiffusionBee, con referencia a un archivo workflow.png.
Funcionalidades
- Generación de texto a imagen basada en difusión.
- Versión refinada y cuantizada del modelo tencent/SRPO.
- Formatos/precisiones fp8_e4m3fn, Q8_0 y Q4_1 orientados a compatibilidad y menor uso de memoria.
- Modelo de aproximadamente 12B parámetros con archivos GGUF.
- Entrenado a partir de SRPO sobre FLUX.1 Dev, con datos HPD y recompensa HPSv2 según la tarjeta del modelo.
- Busca mejorar realismo, estética y nitidez mediante Semantic Relative Preference Optimization.
Casos de uso
- Generar imágenes a partir de prompts con mejor nitidez que algunas cuantizaciones directas del SRPO original.
- Ejecutar una variante cuantizada de SRPO en entornos locales compatibles con GGUF.
- Experimentar con modelos de difusión alineados con preferencias humanas para mejorar realismo y calidad estética.
- Probar variantes Q4_1 o Q8_0 cuando se necesite equilibrar calidad, tamaño de modelo y compatibilidad de hardware.