nota-ai/bk-sdm-small-2m

nota-ai

Texto a imagen

BK-SDM-Small-2M es una versión comprimida arquitectónicamente de Stable Diffusion para generación texto-a-imagen eficiente. Pertenece a la familia Block-removed Knowledge-distilled Stable Diffusion Model y fue preentrenado con 2,3 millones de pares imagen-texto de LAION-Aesthetics V2 6.25+, diez veces más datos que la versión BK-SDM-Small anterior.

Como usar

Ejemplo de inferencia con el scheduler PNDM por defecto y 50 pasos de denoising:
import torch
from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained("nota-ai/bk-sdm-small-2m", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "a black vase holding a bouquet of roses"
image = pipe(prompt).images[0]
image.save("example.png")

Funcionalidades

Generación texto-a-imagen con Diffusers y StableDiffusionPipeline.
Modelo U-Net comprimido con 0,49B parámetros y 0,66B parámetros en el sistema completo.
Preentrenamiento por destilación sobre 2.256.472 pares imagen-texto.
Entrenado en una NVIDIA A100 80GB con AdamW, batch efectivo 256 y learning rate constante de 5e-5 durante 50K iteraciones.
Resultados zero-shot en MS-COCO 30K: FID 17.05, IS 33.10 y CLIP Score 0.2734 con ViT-g/14.
Usa licencia creativeml-openrail-m y sigue las pautas de uso de Stable Diffusion v1.

Casos de uso

Síntesis eficiente de imágenes 512x512 a partir de prompts de texto.
Experimentación con modelos Stable Diffusion comprimidos para reducir coste computacional.
Comparación de calidad frente a Stable Diffusion v1.4 y variantes BK-SDM Base, Small y Tiny.
Despliegues o prototipos donde un modelo texto-a-imagen más ligero sea preferible a SD v1.4 completo.