lovis93/testllm

lovis93

Texto a imagen

Modelo de texto a imagen basado en Diffusers y Safetensors que utiliza `FluxPipeline` para generar imágenes a partir de descripciones en texto. Corresponde a FLUX.1 [dev], un transformador de flujo rectificado de 12 mil millones de parámetros orientado a generación de imágenes con alta calidad y buen seguimiento de prompts.

Como usar

Se ofrece una implementación de referencia y código de muestreo en un repositorio dedicado de GitHub, pensado como punto de partida para desarrolladores y creativos.
Para usar FLUX.1 [dev] con la librería diffusers, primero instala o actualiza la dependencia:
pip install -U diffusers

Luego puedes ejecutar el modelo con FluxPipeline:
import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)
pipe.enable_model_cpu_offload()  # ahorra VRAM descargando parte del modelo a CPU

prompt = "A cat holding a sign that says hello world"
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=3.5,
    num_inference_steps=50,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]

image.save("flux-dev.png")

Funcionalidades

Generación de imágenes desde texto con FLUX.1 [dev].
Transformador de flujo rectificado de 12 mil millones de parámetros.
Calidad de salida de vanguardia, situada por debajo de FLUX.1 [pro].
Seguimiento de prompts competitivo frente a alternativas de código cerrado.
Entrenado con destilación de guidance para mejorar la eficiencia.
Pesos abiertos para investigación científica y flujos de trabajo creativos.
Compatible con Diffusers y ComfyUI para inferencia local.

Casos de uso

Generación de imágenes a partir de descripciones textuales detalladas.
Prototipado creativo para artistas y diseñadores que quieran experimentar con flujos locales.
Investigación científica sobre modelos generativos con pesos abiertos.
Integración en aplicaciones basadas en Diffusers o flujos visuales con ComfyUI.