tensorart/stable-diffusion-3.5-medium-turbo

tensorart

Texto a imagen

TensorArt Stable Diffusion 3.5 Medium Turbo es un modelo de texto a imagen de alto rendimiento, destilado a partir de stabilityai/stable-diffusion-3.5-medium. Está orientado a generar imágenes con mayor rapidez, estabilidad y eficiencia, manteniendo buena calidad visual en estilos que van desde lo fotorealista hasta arte abstracto. El modelo está pensado para escenarios creativos exigentes, flujos con Diffusers o ComfyUI, y personalización mediante LoRA.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# Cambia a "mps" para dispositivos Apple
pipe = DiffusionPipeline.from_pretrained(
    "tensorart/stable-diffusion-3.5-medium-turbo",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso del checkpoint:
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "tensorart/stable-diffusion-3.5-medium-turbo",
    torch_dtype=torch.float16,
)
pipe = pipe.to("cuda")

image = pipe(
    "A beautiful bald girl with silver and white futuristic metal face jewelry, her full body made of intricately carved liquid glass in the style of Tadashi, the complexity master of cyberpunk, in the style of James Jean and Peter Mohrbacher. This concept design is trending on Artstation, with sharp focus, studio-quality photography, and highly detailed, intricate details.",
    num_inference_steps=8,
    guidance_scale=1.5,
    height=1024,
    width=768
).images[0]

image.save("./test4-2.webp")

Uso con LoRA:
import torch
from diffusers import StableDiffusion3Pipeline
import numpy as np
from safetensors.torch import load_file
from huggingface_hub import hf_hub_download

repo = "tensorart/stable-diffusion-3.5-medium-turbo"
ckpt = "lora_sd3.5m_turbo_8steps.safetensors"

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-medium",
    torch_dtype=torch.float16,
)
pipe = pipe.to("cuda")
pipe.load_lora_weights(hf_hub_download(repo, ckpt))
pipe.fuse_lora()
pipe = pipe.to("cuda")

image = pipe(
    "A beautiful bald girl with silver and white futuristic metal face jewelry, her full body made of intricately carved liquid glass in the style of Tadashi, the complexity master of cyberpunk, in the style of James Jean and Peter Mohrbacher. This concept design is trending on Artstation, with sharp focus, studio-quality photography, and highly detailed, intricate details.",
    num_inference_steps=8,
    guidance_scale=1.5,
    height=1024,
    width=768
).images[0]

image.save("./test1.webp")

Requisitos indicados: Python 3.8+, PyTorch 2.0+ y bibliotecas como Diffusers. También puede usarse en ComfyUI mediante los workflows proporcionados para checkpoint y LoRA.

Funcionalidades

Generación turbo: ofrece velocidades de generación más rápidas que el modelo base, útil para flujos creativos con alta demanda o muchas iteraciones.
Amplia variedad estilística: admite estilos fotorealistas, ilustración, arte abstracto y diseños conceptuales detallados.
Salidas de alta resolución: puede producir imágenes nítidas con detalles complejos, incluyendo ejemplos a 1024 px de alto.
Compatible con LoRA: incluye variantes LoRA de 4 y 8 pasos para mejorar velocidad, rendimiento y personalización.
Basado en SD3.5 Medium: deriva de Stability AI Stable Diffusion 3.5 Medium y conserva una arquitectura SD3 con aproximadamente 2B parámetros.
Distribución flexible: disponible en formatos Diffusers, Safetensors y GGUF, con cuantizaciones Q4_K_M y Q8_0.

Casos de uso

Generación rápida de imágenes a partir de texto para prototipado creativo.
Arte conceptual de alta resolución con detalles complejos.
Producción de imágenes en estilos fotorealistas, abstractos o cyberpunk.
Experimentación con variantes LoRA de 4 u 8 pasos para acelerar iteraciones.
Flujos locales con Diffusers, ComfyUI, Draw Things o DiffusionBee.
Personalización artística basada en Stable Diffusion 3.5 Medium.