YGu1998/SiD-DiT-SD3.5-large

YGu1998

Texto a imagen

SiD-DiT-SD3.5-large es un modelo de texto a imagen derivado de Stable Diffusion 3.5 Large que aplica score distillation a modelos de flow matching. Está diseñado para acelerar el muestreo al destilar un modelo profesor de flow matching en un estudiante de pocos pasos, manteniendo generación de alta calidad con inferencia rápida.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("YGu1998/SiD-DiT-SD3.5-large", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Instalación del repositorio y dependencias:
# download model files from this repo
git clone https://huggingface.co/YGu1998/SiD-DiT-SD3.5-large

# install packages
cd SiD_pipelines
pip install -r requirements.txt
cd..

Inferencia con SiD-DiT:
import torch
from SiD_pipelines import SiDSD3Pipeline

if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"

model_repo_id = "YGu1998/SiD-DiT-SD3.5-large"
prompt = ["a studio portrait of an elderly woman smiling, soft window light, 85mm lens"]

pipe = SiDSD3Pipeline.from_pretrained(
    model_repo_id,
    torch_dtype=torch_dtype,
).to(device)

generator = torch.Generator(device=device).manual_seed(42)
image = pipe(
    prompt=prompt,
    guidance_scale=1.0,
    num_inference_steps=4,
    width=1024,
    height=1024,
    generator=generator,
    time_scale=1000,
).images[0]

image.save("example.png")

Funcionalidades

Generación de imágenes a partir de texto con arquitectura basada en Stable Diffusion 3.5 Large.
Pipeline de score distillation para modelos de flow matching.
Inferencia de pocos pasos, con ejemplo de uso en 4 pasos de muestreo.
Compatible con Diffusers y con un pipeline SiDSD3Pipeline incluido en el repositorio.
Checkpoint en formato Safetensors.
Usa bfloat16 en CUDA cuando está disponible y float32 en CPU.
No está desplegado actualmente en proveedores de inferencia de Hugging Face.

Casos de uso

Generar imágenes de alta resolución desde prompts de texto.
Probar inferencia acelerada de pocos pasos en modelos de texto a imagen basados en flow matching.
Investigar técnicas de destilación de modelos generativos, especialmente score distillation aplicada a Stable Diffusion 3.5 Large.
Crear prototipos locales de generación visual con Diffusers o con el pipeline SiD-DiT.