stepfun-ai/NextStep-1.1

stepfun-ai
Texto a imagen

NextStep-1.1 es un modelo de generación de imágenes a partir de texto de StepFun, publicado en Hugging Face bajo licencia Apache 2.0. Es una versión reingenierizada de la serie NextStep centrada en estabilidad y salida de alta fidelidad: corrige fallos de visualización observados en NextStep-1, mejora la calidad de imagen mediante entrenamiento extendido y usa un paradigma de postentrenamiento con aprendizaje por refuerzo basado en Flow. El modelo tiene 15B parámetros en Safetensors F32, está integrado con Transformers y requiere código remoto personalizado para cargarse.

Como usar

Configuración de entorno:

conda create -n nextstep python=3.11 -y
conda activate nextstep
pip install uv # optional
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/stepfun-ai/NextStep-1.1 && cd NextStep-1.1
uv pip install -r requirements.txt
hf download stepfun-ai/NextStep-1.1 "vae/checkpoint.pt" --local-dir ./

Ejemplo de uso para generar una imagen:

import torch
from transformers import AutoTokenizer, AutoModel
from models.gen_pipeline import NextStepPipeline

HF_HUB = "stepfun-ai/NextStep-1.1"

# load model and tokenizer
tokenizer = AutoTokenizer.from_pretrained(HF_HUB, local_files_only=True, trust_remote_code=True)
model = AutoModel.from_pretrained(HF_HUB, local_files_only=True, trust_remote_code=True)
pipeline = NextStepPipeline(tokenizer=tokenizer, model=model).to(device="cuda", dtype=torch.bfloat16)

# set prompts
positive_prompt = ""
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry."
example_prompt = "A REALISTIC PHOTOGRAPH OF A WALL WITH \"TOWARD AUTOREGRESSIVE IMAGE GENERATION WITH CONTINUOUS TOKENS AT SCALE\" PROMINENTLY DISPLAYED"

# generate image from text
IMG_SIZE = 512
image = pipeline.generate_image(
    example_prompt,
    hw=(IMG_SIZE, IMG_SIZE),
    num_images_per_caption=1,
    positive_prompt=positive_prompt,
    negative_prompt=negative_prompt,
    cfg=7.5,
    cfg_img=1.0,
    cfg_schedule="constant",
    use_norm=False,
    num_sampling_steps=28,
    timesteps_shift=1.0,
    seed=3407,
)[0]
image.save("./assets/output.jpg")

Funcionalidades

Generación texto-a-imagen con enfoque autorregresivo y tokens continuos.
Mejor fidelidad visual mediante RL, con texturas más limpias y menos artefactos visuales.
Mayor estabilidad técnica, incluyendo mitigación de inestabilidad numérica en RL para modelos autorregresivos basados en Flow.
Modelo grande de 15B parámetros, distribuido en Safetensors fragmentados con tensores F32.
Compatible con Transformers y carga mediante AutoTokenizer/AutoModel con trust_remote_code=True.
Incluye VAE separado descargable desde Hugging Face.

Casos de uso

Crear imágenes de alta fidelidad a partir de prompts textuales.
Experimentar con generación autorregresiva de imágenes usando tokens continuos.
Investigación sobre postentrenamiento con aprendizaje por refuerzo Flow-based para modelos generativos visuales.
Evaluar mejoras de estabilidad y reducción de artefactos frente a NextStep-1.
Prototipos locales de generación visual con Transformers y CUDA.