ThirdMiddle/Qwen-Image-1.9

ThirdMiddle

Texto a imagen

Modelo de generación de imágenes derivado de la familia Qwen-Image MMDiT de 20B, creado mediante una mezcla delta con capacidades de edición, eliminación de direcciones de rechazo y cuantización para despliegue. Está publicado en Hugging Face con licencia Apache-2.0 y orientado a generación texto-a-imagen con Diffusers y variantes GGUF para ejecución local.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "ThirdMiddle/Qwen-Image-1.9",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo principal de la ficha del modelo:
from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained(
    "ThirdMiddle/Qwen-Image-1.9",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
)
pipe = pipe.to("cuda")

image = pipe(
    "a photorealistic portrait of an astronaut on Mars at sunrise",
    num_inference_steps=30,
    guidance_scale=4.0,
).images[0]
image.save("output.png")

Uso local con llama.cpp/Ollama en versión GGUF:
llama-server -hf ThirdMiddle/Qwen-Image-1.9:Q4_K_M
llama-cli -hf ThirdMiddle/Qwen-Image-1.9:Q4_K_M
ollama run hf.co/ThirdMiddle/Qwen-Image-1.9:Q4_K_M

Uso con Docker Model Runner:
docker model run hf.co/ThirdMiddle/Qwen-Image-1.9:Q4_K_M

Funcionalidades

Tipo de tarea: texto a imagen.
Familia base: Qwen-Image, arquitectura MMDiT de aproximadamente 20B parámetros.
Codificador de texto: Qwen2.5-VL; VAE: RGB-VAE; RoPE 2D.
Derivado de Qwen/Qwen-Image-2512, Qwen/Qwen-Image, Qwen/Qwen-Image-Edit-2511 y Qwen/Qwen-Image-Layered.
Incluye mezcla delta de capacidades de edición con coeficiente 0.35 usando slerp sobre tensores del backbone MMDiT.
Aplica abliteration para retirar vectores de rechazo en capas 18+ sobre attention o_proj y MLP down_proj.
Disponible en GGUF con objetivos Q4_K_M, IQ4_XS y F16; también menciona EXL2 a 4.0 bpw.
Optimizado para ejecución cuantizada y compatible con flujos locales como llama.cpp, Ollama, LM Studio, Docker Model Runner, Lemonade y Unsloth Studio.
No aparece desplegado por proveedores de inferencia de Hugging Face en la página indicada.

Casos de uso

Generar imágenes a partir de prompts textuales detallados.
Probar una variante modificada de Qwen-Image con capacidades de edición transferidas desde Qwen-Image-Edit-2511.
Ejecutar generación de imágenes localmente mediante formatos GGUF cuantizados.
Experimentar con despliegues cuantizados en hardware GPU, incluyendo entornos ROCm como AMD Instinct MI300X.
Evaluar una variante abliterada de Qwen-Image para investigación sobre dirección de rechazo y comportamiento del modelo.