ostris/Flex.2-preview
Flex.2-preview es un modelo abierto de difusión texto-a-imagen de 8.000 millones de parámetros, publicado como vista previa temprana por ostris. Está diseñado para generación de imágenes, inpainting integrado y control universal mediante entradas de línea, pose y profundidad. Es la continuación de Flex.1-alpha y usa una licencia Apache 2.0 compatible con usos abiertos y comerciales.
Como usar
Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate
Ejemplo rápido:
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("ostris/Flex.2-preview", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso recomendado con AutoPipelineForText2Image, incluyendo inpainting y control:
pip install --upgrade torch accelerate transformers diffusers
import torch
from diffusers import AutoPipelineForText2Image
from diffusers.utils import load_image
name_or_path = "ostris/Flex.2-preview"
inpaint_image = load_image("https://ostris.com/wp-content/uploads/2025/04/dog.jpg")
inpaint_mask = load_image("https://ostris.com/wp-content/uploads/2025/04/dog_mask.jpg")
control_image = load_image("https://ostris.com/wp-content/uploads/2025/04/dog_depth.jpg")
dtype = torch.bfloat16
pipe = AutoPipelineForText2Image.from_pretrained(
name_or_path,
custom_pipeline=name_or_path,
torch_dtype=dtype
).to("cuda")
image = pipe(
prompt="A white friendly robotic dog sitting on a bench",
inpaint_image=inpaint_image,
inpaint_mask=inpaint_mask,
control_image=control_image,
control_strength=0.5,
control_stop=0.33,
height=1024,
width=1024,
guidance_scale=3.5,
num_inference_steps=50,
generator=torch.Generator("cpu").manual_seed(42)
).images[0]
image.save(f"robot_dog.png")
Para tarjetas de consumo con menos de 24 GB de VRAM, la página recomienda cuantización con torchao:
pip install --upgrade torchao
También puede usarse en ComfyUI mediante el nodo Flex2 Conditioner de ComfyUI-FlexTools, junto con comfyui_controlnet_aux para generar imágenes de control como pose y profundidad.
Funcionalidades
- Modelo de difusión texto-a-imagen de 8B parámetros.
- Inpainting integrado entrenado en el modelo base.
- Control universal con entradas de pose, línea y profundidad.
- Embebedor de guidance más rápido, indicado como aproximadamente 2x más veloz para generar.
- Entrada de texto de hasta 512 tokens.
- Espacio latente de 16 canales.
- Afinable mediante LoRA, incluyendo soporte inicial en AI-Toolkit.
- Licencia Apache 2.0.
Casos de uso
- Generación texto-a-imagen con prompts largos.
- Inpainting de regiones concretas dentro de una imagen.
- Generación guiada por mapas de profundidad, poses o líneas.
- Flujos de trabajo creativos en ComfyUI que combinan texto, control e inpainting.
- Entrenamiento de LoRAs sobre un modelo que ya incluye controles e inpainting.
- Experimentación con herramientas de inferencia para modelos tipo Flux/Flex.