nota-ai/bk-sdm-small-2m
nota-ai
Texto a imagen
BK-SDM-Small-2M es una versión comprimida arquitectónicamente de Stable Diffusion para generación texto-a-imagen eficiente. Pertenece a la familia Block-removed Knowledge-distilled Stable Diffusion Model y fue preentrenado con 2,3 millones de pares imagen-texto de LAION-Aesthetics V2 6.25+, diez veces más datos que la versión BK-SDM-Small anterior.
Como usar
Ejemplo de inferencia con el scheduler PNDM por defecto y 50 pasos de denoising:
import torch
from diffusers import StableDiffusionPipeline
pipe = StableDiffusionPipeline.from_pretrained("nota-ai/bk-sdm-small-2m", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "a black vase holding a bouquet of roses"
image = pipe(prompt).images[0]
image.save("example.png")
Funcionalidades
- Generación texto-a-imagen con Diffusers y StableDiffusionPipeline.
- Modelo U-Net comprimido con 0,49B parámetros y 0,66B parámetros en el sistema completo.
- Preentrenamiento por destilación sobre 2.256.472 pares imagen-texto.
- Entrenado en una NVIDIA A100 80GB con AdamW, batch efectivo 256 y learning rate constante de 5e-5 durante 50K iteraciones.
- Resultados zero-shot en MS-COCO 30K: FID 17.05, IS 33.10 y CLIP Score 0.2734 con ViT-g/14.
- Usa licencia creativeml-openrail-m y sigue las pautas de uso de Stable Diffusion v1.
Casos de uso
- Síntesis eficiente de imágenes 512x512 a partir de prompts de texto.
- Experimentación con modelos Stable Diffusion comprimidos para reducir coste computacional.
- Comparación de calidad frente a Stable Diffusion v1.4 y variantes BK-SDM Base, Small y Tiny.
- Despliegues o prototipos donde un modelo texto-a-imagen más ligero sea preferible a SD v1.4 completo.