stepfun-ai/NextStep-1.1
stepfun-ai
Texto a imagen
NextStep-1.1 es un modelo de generación de imágenes a partir de texto de StepFun, publicado en Hugging Face bajo licencia Apache 2.0. Es una versión reingenierizada de la serie NextStep centrada en estabilidad y salida de alta fidelidad: corrige fallos de visualización observados en NextStep-1, mejora la calidad de imagen mediante entrenamiento extendido y usa un paradigma de postentrenamiento con aprendizaje por refuerzo basado en Flow. El modelo tiene 15B parámetros en Safetensors F32, está integrado con Transformers y requiere código remoto personalizado para cargarse.
Como usar
Configuración de entorno:
conda create -n nextstep python=3.11 -y
conda activate nextstep
pip install uv # optional
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/stepfun-ai/NextStep-1.1 && cd NextStep-1.1
uv pip install -r requirements.txt
hf download stepfun-ai/NextStep-1.1 "vae/checkpoint.pt" --local-dir ./
Ejemplo de uso para generar una imagen:
import torch
from transformers import AutoTokenizer, AutoModel
from models.gen_pipeline import NextStepPipeline
HF_HUB = "stepfun-ai/NextStep-1.1"
# load model and tokenizer
tokenizer = AutoTokenizer.from_pretrained(HF_HUB, local_files_only=True, trust_remote_code=True)
model = AutoModel.from_pretrained(HF_HUB, local_files_only=True, trust_remote_code=True)
pipeline = NextStepPipeline(tokenizer=tokenizer, model=model).to(device="cuda", dtype=torch.bfloat16)
# set prompts
positive_prompt = ""
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry."
example_prompt = "A REALISTIC PHOTOGRAPH OF A WALL WITH \"TOWARD AUTOREGRESSIVE IMAGE GENERATION WITH CONTINUOUS TOKENS AT SCALE\" PROMINENTLY DISPLAYED"
# generate image from text
IMG_SIZE = 512
image = pipeline.generate_image(
example_prompt,
hw=(IMG_SIZE, IMG_SIZE),
num_images_per_caption=1,
positive_prompt=positive_prompt,
negative_prompt=negative_prompt,
cfg=7.5,
cfg_img=1.0,
cfg_schedule="constant",
use_norm=False,
num_sampling_steps=28,
timesteps_shift=1.0,
seed=3407,
)[0]
image.save("./assets/output.jpg")
Funcionalidades
- Generación texto-a-imagen con enfoque autorregresivo y tokens continuos.
- Mejor fidelidad visual mediante RL, con texturas más limpias y menos artefactos visuales.
- Mayor estabilidad técnica, incluyendo mitigación de inestabilidad numérica en RL para modelos autorregresivos basados en Flow.
- Modelo grande de 15B parámetros, distribuido en Safetensors fragmentados con tensores F32.
- Compatible con Transformers y carga mediante AutoTokenizer/AutoModel con trust_remote_code=True.
- Incluye VAE separado descargable desde Hugging Face.
Casos de uso
- Crear imágenes de alta fidelidad a partir de prompts textuales.
- Experimentar con generación autorregresiva de imágenes usando tokens continuos.
- Investigación sobre postentrenamiento con aprendizaje por refuerzo Flow-based para modelos generativos visuales.
- Evaluar mejoras de estabilidad y reducción de artefactos frente a NextStep-1.
- Prototipos locales de generación visual con Transformers y CUDA.