rockerBOO/flux.1-dev-SRPO

rockerBOO

Texto a imagen

Modelo de generación de imágenes texto-a-imagen basado en FLUX.1 Dev y ajustado con SRPO (Semantic Relative Preference Optimization). SRPO alinea la trayectoria completa de difusión con preferencias humanas mediante señales de recompensa condicionadas por texto, buscando mejorar el realismo y la calidad estética. La tarjeta indica que esta versión fue entrenada sobre el conjunto HPD con HPSv2 y que logra una mejora de más de 3x en evaluaciones humanas de realismo y estética frente al modelo base ajustado en el trabajo.

Como usar

Instalación y uso directo con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "rockerBOO/flux.1-dev-SRPO",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso cargando los pesos SRPO sobre FLUX:
from diffusers import FluxPipeline

prompt = 'The Death of Ophelia by John Everett Millais, Pre-Raphaelite painting, Ophelia floating in a river surrounded by flowers, detailed natural elements, melancholic and tragic atmosphere'

pipe = FluxPipeline.from_pretrained(
    './data/flux',
    torch_dtype=torch.bfloat16,
    use_safetensors=True
).to("cuda")

state_dict = load_file("./srpo/diffusion_pytorch_model.safetensors")
pipe.transformer.load_state_dict(state_dict)

image = pipe(
    prompt,
    guidance_scale=3.5,
    height=1024,
    width=1024,
    num_inference_steps=infer_step,
    max_sequence_length=512,
    generator=generator
).images[0]

Funcionalidades

Texto-a-imagen con Diffusers.
Ajuste fino de FLUX.1 Dev usando SRPO.
Optimización de preferencias humanas con recompensas condicionadas por texto.
Método Direct-Align para reducir el coste de optimizar múltiples pasos de denoising.
Checkpoint en formato diffusers y pesos safetensors.
Pensado para imágenes realistas y estéticamente más alineadas con prompts positivos y negativos.

Casos de uso

Generación de imágenes realistas a partir de prompts detallados.
Creación de imágenes artísticas con composición, iluminación y estética refinadas.
Experimentación académica con alineación de modelos de difusión mediante preferencias humanas.
Comparación de FLUX.1 Dev base frente a variantes ajustadas con SRPO.
Producción local de imágenes 1024x1024 usando GPU con bfloat16.