Segmind Stable Diffusion 1B (SSD-1B)

segmind

Texto a imagen

El modelo Segmind Stable Diffusion (SSD-1B) es una versión destilada y 50% más pequeña del Stable Diffusion XL (SDXL), ofreciendo una aceleración del 60% mientras mantiene altas capacidades de generación de texto a imagen de alta calidad. Ha sido entrenado en diversos conjuntos de datos, incluyendo datos de Grit y Midjourney, para mejorar su capacidad de crear una amplia gama de contenido visual basado en indicaciones textuales. Este modelo emplea una estrategia de destilación de conocimiento, aprovechando las enseñanzas de varios modelos expertos en sucesión, como SDXL, ZavyChromaXL y JuggernautXL, para combinar sus fortalezas y producir resultados visuales impresionantes. Un agradecimiento especial al equipo de HF, especialmente a Sayak, Patrick y Poli por su colaboración y orientación en este trabajo.

Como usar

Este modelo se puede usar a través de la biblioteca 🧨 Diffusers. Asegúrate de instalar diffusers desde la fuente ejecutando
pip install git+https://github.com/huggingface/diffusers

Además, instala transformers, safetensors y accelerate:
pip install transformers accelerate safetensors

Para usar el modelo, puedes ejecutar lo siguiente:
from diffusers import StableDiffusionXLPipeline
import torch
pipe = StableDiffusionXLPipeline.from_pretrained("segmind/SSD-1B", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")
pipe.to("cuda")
# si usas torch < 2.0
# pipe.enable_xformers_memory_efficient_attention()
prompt = "Un astronauta montando un caballo verde" # Tu indicación aquí
neg_prompt = "feo, borroso, mala calidad" # Indicaciones negativas aquí
image = pipe(prompt=prompt, negative_prompt=neg_prompt).images[0]

Actualización: Nuestro modelo ahora debería ser utilizable en ComfyUI. ¡Por favor, usa indicaciones negativas y un CFG de alrededor de 9.0 para obtener la mejor calidad!

Funcionalidades

Generación de imágenes a partir de texto: El modelo sobresale en la generación de imágenes a partir de indicaciones textuales, lo que permite una amplia gama de aplicaciones creativas.
Destilado para velocidad: Diseñado para ser eficiente, este modelo ofrece una aceleración del 60%, lo que lo convierte en una elección práctica para aplicaciones en tiempo real y escenarios donde la generación rápida de imágenes es esencial.
Datos de entrenamiento diversos: Entrenado en conjuntos de datos diversos, el modelo puede manejar una variedad de indicaciones textuales y generar imágenes correspondientes de manera efectiva.
Destilación de conocimiento: Al destilar conocimiento de múltiples modelos expertos, el Segmind Stable Diffusion Model combina sus fortalezas y minimiza sus limitaciones, lo que resulta en un mejor rendimiento.

Casos de uso

Arte y Diseño: Puede usarse para generar obras de arte, diseños y otros contenidos creativos, proporcionando inspiración y mejorando el proceso creativo.
Educación: El modelo se puede aplicar en herramientas educativas para crear contenido visual para fines de enseñanza y aprendizaje.
Investigación: Los investigadores pueden usar el modelo para explorar modelos generativos, evaluar su rendimiento y empujar los límites de la generación de texto a imagen.
Generación de Contenido Seguro: Ofrece una manera segura y controlada de generar contenido, reduciendo el riesgo de salidas dañinas o inapropiadas.
Análisis de Sesgos y Limitaciones: Investigadores y desarrolladores pueden usar el modelo para sondear sus limitaciones y sesgos, contribuyendo a una mejor comprensión del comportamiento de los modelos generativos.