CodeGoat24/FLUX.2-klein-base-9B-UnifiedReward-Flex-lora

CodeGoat24

Texto a imagen

LoRA de texto a imagen para FLUX.2-klein-base-9B, entrenado con GRPO usando UnifiedReward-Flex como modelo de recompensa sobre el conjunto de entrenamiento de UniGenBench. Está orientado a mejorar la generación visual siguiendo instrucciones, con mejoras reportadas frente al modelo base en UniGenBench, T2I-CompBench y GenEval.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "CodeGoat24/FLUX.2-klein-base-9B-UnifiedReward-Flex-lora",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Funcionalidades

Modelo Diffusers para generación de imágenes a partir de texto.
Adaptador LoRA basado en black-forest-labs/FLUX.2-klein-base-9B.
Entrenado con UnifiedReward-Flex como recompensa personalizada para generación visual.
Mejora el rendimiento global frente al modelo base en UniGenBench: 81.54% frente a 78.93%.
Mejora el rendimiento global en T2I-CompBench: 58.75% frente a 53.72%.
Mejora el rendimiento global en GenEval: 81.55% frente a 78.99%.
Licencia MIT.

Casos de uso

Generación de imágenes desde prompts de texto.
Evaluación o comparación de mejoras de alineación visual mediante recompensas personalizadas.
Experimentos con FLUX.2-klein-base-9B y adaptadores LoRA.
Creación de imágenes donde importan atributos, relaciones, composición, conteo, posición y seguimiento de instrucciones complejas.