wikeeyang/Real-Qwen-Image-V2

wikeeyang

Texto a imagen

Real-Qwen-Image-V2 es una versión ajustada de Qwen-Image-2512 para generación de imágenes a partir de texto. Busca mejorar la nitidez y el realismo frente al modelo oficial, con optimización específica para la estética de rostros asiáticos. El autor lo presenta como un modelo fácil de usar, compatible con LoRA y con buena calidad tanto en texto como en imagen.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("wikeeyang/Real-Qwen-Image-V2", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Parámetros sugeridos en la tarjeta del modelo: model shift de 1.0 a 8.0, CFG de inferencia de 1.0 a 4.0, entre 10 y 50 pasos, y sampler/scheduler Euler/Simple u otros compatibles. También se mencionan flujos de ejemplo para ComfyUI: V2-example-workflow.json y V2-example-workflow-image.

Funcionalidades

Modelo Diffusers y GGUF para texto a imagen.
Ajuste fino basado en Qwen/Qwen-Image-2512.
Mejor nitidez y realismo que el modelo base según la tarjeta del modelo.
Optimización para estética de rostros asiáticos.
Buena adaptabilidad de parámetros y compatibilidad con LoRA.
Licencia Apache 2.0.
Arquitectura qwen_image con tamaño aproximado de 20B parámetros.
Versiones cuantizadas disponibles: Q4_K_M de 13.1 GB y Q8_0 de 21.8 GB.

Casos de uso

Generación de imágenes realistas desde prompts de texto.
Creación de retratos o escenas con estética optimizada para rostros asiáticos.
Flujos de producción en ComfyUI o Diffusers con LoRA.
Experimentación local con variantes GGUF cuantizadas.
Creación de imágenes de alta nitidez donde se quiera partir de Qwen-Image-2512 ajustado.