sd2-community/stable-diffusion-2-1-unclip

sd2-community
Texto a imagen

Stable Diffusion v2-1-unclip es una versión ajustada de Stable Diffusion 2.1 para generación y variación de imágenes. Además del prompt de texto, acepta embeddings de imagen CLIP con ruido, lo que permite crear variaciones de una imagen de entrada o encadenarlo con priors CLIP de texto a imagen. El nivel de ruido del embedding puede controlarse con `noise_level`, donde 0 no añade ruido y 1000 representa ruido completo.

Como usar

Instalación y uso básico con Diffusers:

pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "sd2-community/stable-diffusion-2-1-unclip",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo de variación de imagen con Diffusers:

pip install diffusers transformers accelerate scipy safetensors
from diffusers import DiffusionPipeline
from diffusers.utils import load_image
import torch

pipe = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-2-1-unclip-small",
    torch_dtype=torch.float16
)
pipe.to("cuda")

url = "https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main/stable_unclip/tarsila_do_amaral.png"
image = load_image(url)

image = pipe(image).images[0]

Funcionalidades

Generación de imágenes a partir de prompts de texto mediante difusión latente.
Soporte para variaciones de imagen usando embeddings CLIP de imagen con ruido.
Basado en Stable Diffusion 2.1 y en un codificador de texto OpenCLIP-ViT/H preentrenado.
Compatible con Diffusers y pipelines como `DiffusionPipeline` / `StableUnCLIPImg2ImgPipeline`.
Distribuido en formato Safetensors bajo licencia CreativeML Open RAIL++-M.
Repositorio espejo del modelo previamente deprecado `stabilityai/stable-diffusion-2-1-unclip`; no está afiliado a Stability AI.

Casos de uso

Investigación sobre despliegue seguro de modelos generativos capaces de producir contenido dañino.
Estudio de limitaciones, sesgos y comportamiento de modelos de generación de imágenes.
Creación de variaciones visuales a partir de una imagen de referencia.
Generación de obras visuales, exploración artística y procesos de diseño.
Herramientas educativas o creativas basadas en generación de imágenes.
Investigación en modelos generativos y difusión latente.