lovis93/testllm
lovis93
Texto a imagen
Modelo de texto a imagen basado en Diffusers y Safetensors que utiliza `FluxPipeline` para generar imágenes a partir de descripciones en texto. Corresponde a FLUX.1 [dev], un transformador de flujo rectificado de 12 mil millones de parámetros orientado a generación de imágenes con alta calidad y buen seguimiento de prompts.
Como usar
Se ofrece una implementación de referencia y código de muestreo en un repositorio dedicado de GitHub, pensado como punto de partida para desarrolladores y creativos.
Para usar FLUX.1 [dev] con la librería diffusers, primero instala o actualiza la dependencia:
pip install -U diffusers
Luego puedes ejecutar el modelo con FluxPipeline:
import torch
from diffusers import FluxPipeline
pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)
pipe.enable_model_cpu_offload() # ahorra VRAM descargando parte del modelo a CPU
prompt = "A cat holding a sign that says hello world"
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
num_inference_steps=50,
max_sequence_length=512,
generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-dev.png")
Funcionalidades
- Generación de imágenes desde texto con FLUX.1 [dev].
- Transformador de flujo rectificado de 12 mil millones de parámetros.
- Calidad de salida de vanguardia, situada por debajo de FLUX.1 [pro].
- Seguimiento de prompts competitivo frente a alternativas de código cerrado.
- Entrenado con destilación de guidance para mejorar la eficiencia.
- Pesos abiertos para investigación científica y flujos de trabajo creativos.
- Compatible con Diffusers y ComfyUI para inferencia local.
Casos de uso
- Generación de imágenes a partir de descripciones textuales detalladas.
- Prototipado creativo para artistas y diseñadores que quieran experimentar con flujos locales.
- Investigación científica sobre modelos generativos con pesos abiertos.
- Integración en aplicaciones basadas en Diffusers o flujos visuales con ComfyUI.