rockerBOO/flux.1-dev-SRPO
rockerBOO
Texto a imagen
Modelo de generación de imágenes texto-a-imagen basado en FLUX.1 Dev y ajustado con SRPO (Semantic Relative Preference Optimization). SRPO alinea la trayectoria completa de difusión con preferencias humanas mediante señales de recompensa condicionadas por texto, buscando mejorar el realismo y la calidad estética. La tarjeta indica que esta versión fue entrenada sobre el conjunto HPD con HPSv2 y que logra una mejora de más de 3x en evaluaciones humanas de realismo y estética frente al modelo base ajustado en el trabajo.
Como usar
Instalación y uso directo con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"rockerBOO/flux.1-dev-SRPO",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso cargando los pesos SRPO sobre FLUX:
from diffusers import FluxPipeline
prompt = 'The Death of Ophelia by John Everett Millais, Pre-Raphaelite painting, Ophelia floating in a river surrounded by flowers, detailed natural elements, melancholic and tragic atmosphere'
pipe = FluxPipeline.from_pretrained(
'./data/flux',
torch_dtype=torch.bfloat16,
use_safetensors=True
).to("cuda")
state_dict = load_file("./srpo/diffusion_pytorch_model.safetensors")
pipe.transformer.load_state_dict(state_dict)
image = pipe(
prompt,
guidance_scale=3.5,
height=1024,
width=1024,
num_inference_steps=infer_step,
max_sequence_length=512,
generator=generator
).images[0]
Funcionalidades
- Texto-a-imagen con Diffusers.
- Ajuste fino de FLUX.1 Dev usando SRPO.
- Optimización de preferencias humanas con recompensas condicionadas por texto.
- Método Direct-Align para reducir el coste de optimizar múltiples pasos de denoising.
- Checkpoint en formato diffusers y pesos safetensors.
- Pensado para imágenes realistas y estéticamente más alineadas con prompts positivos y negativos.
Casos de uso
- Generación de imágenes realistas a partir de prompts detallados.
- Creación de imágenes artísticas con composición, iluminación y estética refinadas.
- Experimentación académica con alineación de modelos de difusión mediante preferencias humanas.
- Comparación de FLUX.1 Dev base frente a variantes ajustadas con SRPO.
- Producción local de imágenes 1024x1024 usando GPU con bfloat16.