ThirdMiddle/Qwen-Image-1.9
ThirdMiddle
Texto a imagen
Modelo de generación de imágenes derivado de la familia Qwen-Image MMDiT de 20B, creado mediante una mezcla delta con capacidades de edición, eliminación de direcciones de rechazo y cuantización para despliegue. Está publicado en Hugging Face con licencia Apache-2.0 y orientado a generación texto-a-imagen con Diffusers y variantes GGUF para ejecución local.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"ThirdMiddle/Qwen-Image-1.9",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo principal de la ficha del modelo:
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"ThirdMiddle/Qwen-Image-1.9",
torch_dtype=torch.bfloat16,
trust_remote_code=True,
)
pipe = pipe.to("cuda")
image = pipe(
"a photorealistic portrait of an astronaut on Mars at sunrise",
num_inference_steps=30,
guidance_scale=4.0,
).images[0]
image.save("output.png")
Uso local con llama.cpp/Ollama en versión GGUF:
llama-server -hf ThirdMiddle/Qwen-Image-1.9:Q4_K_M
llama-cli -hf ThirdMiddle/Qwen-Image-1.9:Q4_K_M
ollama run hf.co/ThirdMiddle/Qwen-Image-1.9:Q4_K_M
Uso con Docker Model Runner:
docker model run hf.co/ThirdMiddle/Qwen-Image-1.9:Q4_K_M
Funcionalidades
- Tipo de tarea: texto a imagen.
- Familia base: Qwen-Image, arquitectura MMDiT de aproximadamente 20B parámetros.
- Codificador de texto: Qwen2.5-VL; VAE: RGB-VAE; RoPE 2D.
- Derivado de Qwen/Qwen-Image-2512, Qwen/Qwen-Image, Qwen/Qwen-Image-Edit-2511 y Qwen/Qwen-Image-Layered.
- Incluye mezcla delta de capacidades de edición con coeficiente 0.35 usando slerp sobre tensores del backbone MMDiT.
- Aplica abliteration para retirar vectores de rechazo en capas 18+ sobre attention o_proj y MLP down_proj.
- Disponible en GGUF con objetivos Q4_K_M, IQ4_XS y F16; también menciona EXL2 a 4.0 bpw.
- Optimizado para ejecución cuantizada y compatible con flujos locales como llama.cpp, Ollama, LM Studio, Docker Model Runner, Lemonade y Unsloth Studio.
- No aparece desplegado por proveedores de inferencia de Hugging Face en la página indicada.
Casos de uso
- Generar imágenes a partir de prompts textuales detallados.
- Probar una variante modificada de Qwen-Image con capacidades de edición transferidas desde Qwen-Image-Edit-2511.
- Ejecutar generación de imágenes localmente mediante formatos GGUF cuantizados.
- Experimentar con despliegues cuantizados en hardware GPU, incluyendo entornos ROCm como AMD Instinct MI300X.
- Evaluar una variante abliterada de Qwen-Image para investigación sobre dirección de rechazo y comportamiento del modelo.