ostris/Flex.2-preview

ostris

Texto a imagen

Flex.2-preview es un modelo abierto de difusión texto-a-imagen de 8.000 millones de parámetros, publicado como vista previa temprana por ostris. Está diseñado para generación de imágenes, inpainting integrado y control universal mediante entradas de línea, pose y profundidad. Es la continuación de Flex.1-alpha y usa una licencia Apache 2.0 compatible con usos abiertos y comerciales.

Como usar

Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate

Ejemplo rápido:
import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("ostris/Flex.2-preview", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso recomendado con AutoPipelineForText2Image, incluyendo inpainting y control:
pip install --upgrade torch accelerate transformers diffusers

import torch
from diffusers import AutoPipelineForText2Image
from diffusers.utils import load_image

name_or_path = "ostris/Flex.2-preview"
inpaint_image = load_image("https://ostris.com/wp-content/uploads/2025/04/dog.jpg")
inpaint_mask = load_image("https://ostris.com/wp-content/uploads/2025/04/dog_mask.jpg")
control_image = load_image("https://ostris.com/wp-content/uploads/2025/04/dog_depth.jpg")
dtype = torch.bfloat16

pipe = AutoPipelineForText2Image.from_pretrained(
    name_or_path,
    custom_pipeline=name_or_path,
    torch_dtype=dtype
).to("cuda")

image = pipe(
    prompt="A white friendly robotic dog sitting on a bench",
    inpaint_image=inpaint_image,
    inpaint_mask=inpaint_mask,
    control_image=control_image,
    control_strength=0.5,
    control_stop=0.33,
    height=1024,
    width=1024,
    guidance_scale=3.5,
    num_inference_steps=50,
    generator=torch.Generator("cpu").manual_seed(42)
).images[0]

image.save(f"robot_dog.png")

Para tarjetas de consumo con menos de 24 GB de VRAM, la página recomienda cuantización con torchao:
pip install --upgrade torchao

También puede usarse en ComfyUI mediante el nodo Flex2 Conditioner de ComfyUI-FlexTools, junto con comfyui_controlnet_aux para generar imágenes de control como pose y profundidad.

Funcionalidades

Modelo de difusión texto-a-imagen de 8B parámetros.
Inpainting integrado entrenado en el modelo base.
Control universal con entradas de pose, línea y profundidad.
Embebedor de guidance más rápido, indicado como aproximadamente 2x más veloz para generar.
Entrada de texto de hasta 512 tokens.
Espacio latente de 16 canales.
Afinable mediante LoRA, incluyendo soporte inicial en AI-Toolkit.
Licencia Apache 2.0.

Casos de uso

Generación texto-a-imagen con prompts largos.
Inpainting de regiones concretas dentro de una imagen.
Generación guiada por mapas de profundidad, poses o líneas.
Flujos de trabajo creativos en ComfyUI que combinan texto, control e inpainting.
Entrenamiento de LoRAs sobre un modelo que ya incluye controles e inpainting.
Experimentación con herramientas de inferencia para modelos tipo Flux/Flex.