wikeeyang/Real-Qwen-Image-V2
wikeeyang
Texto a imagen
Real-Qwen-Image-V2 es una versión ajustada de Qwen-Image-2512 para generación de imágenes a partir de texto. Busca mejorar la nitidez y el realismo frente al modelo oficial, con optimización específica para la estética de rostros asiáticos. El autor lo presenta como un modelo fácil de usar, compatible con LoRA y con buena calidad tanto en texto como en imagen.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("wikeeyang/Real-Qwen-Image-V2", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Parámetros sugeridos en la tarjeta del modelo: model shift de 1.0 a 8.0, CFG de inferencia de 1.0 a 4.0, entre 10 y 50 pasos, y sampler/scheduler Euler/Simple u otros compatibles. También se mencionan flujos de ejemplo para ComfyUI: V2-example-workflow.json y V2-example-workflow-image.
Funcionalidades
- Modelo Diffusers y GGUF para texto a imagen.
- Ajuste fino basado en Qwen/Qwen-Image-2512.
- Mejor nitidez y realismo que el modelo base según la tarjeta del modelo.
- Optimización para estética de rostros asiáticos.
- Buena adaptabilidad de parámetros y compatibilidad con LoRA.
- Licencia Apache 2.0.
- Arquitectura qwen_image con tamaño aproximado de 20B parámetros.
- Versiones cuantizadas disponibles: Q4_K_M de 13.1 GB y Q8_0 de 21.8 GB.
Casos de uso
- Generación de imágenes realistas desde prompts de texto.
- Creación de retratos o escenas con estética optimizada para rostros asiáticos.
- Flujos de producción en ComfyUI o Diffusers con LoRA.
- Experimentación local con variantes GGUF cuantizadas.
- Creación de imágenes de alta nitidez donde se quiera partir de Qwen-Image-2512 ajustado.