prithivMLmods/Qwen-Image-Studio-Realism
prithivMLmods
Texto a imagen
LoRA de texto a imagen para Qwen-Image orientado a retratos de realismo de estudio. Se activa con la frase "Studio Realism" y está pensado para generar primeros planos con iluminación limpia, fondos sólidos o blancos, rasgos faciales detallados, ropa y accesorios definidos, y estética fotográfica de estudio.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Qwen/Qwen-Image", dtype=torch.bfloat16, device_map="cuda")
pipe.load_lora_weights("prithivMLmods/Qwen-Image-Studio-Realism")
prompt = "Studio Realism, a close-up shot of a young womans face features a neutral expression. The womans eyes are a deep brown, her hair is a dark brown, and her eyebrows are a lighter shade of brown. She is wearing a black and yellow t-shirt, with a cream collar around her neck. Her ear is adorned with a gold earring, adding a touch of shine to her face. The backdrop is a stark white, and the womans hair is pulled back in a ponytail."
image = pipe(prompt).images[0]
Configuración local indicada en la tarjeta del modelo:
import torch
from diffusers import DiffusionPipeline
base_model = "Qwen/Qwen-Image"
pipe = DiffusionPipeline.from_pretrained(base_model, torch_dtype=torch.bfloat16)
lora_repo = "prithivMLmods/Qwen-Image-Studio-Realism"
trigger_word = "Studio Realism"
pipe.load_lora_weights(lora_repo)
device = torch.device("cuda")
pipe.to(device)
Incluye siempre "Studio Realism" al inicio o dentro del prompt para activar el estilo del LoRA.
Funcionalidades
- Adaptador LoRA para el modelo base Qwen/Qwen-Image.
- Especializado en retratos realistas de estudio y primeros planos de rostros.
- Palabra disparadora requerida: "Studio Realism".
- Entrenado con 27 imágenes HQ etiquetadas con florence2-en en lenguaje natural e inglés.
- Configuración publicada: scheduler constant, optimizer AdamW, network dim 64, network alpha 32, noise offset 0.03, multires noise discount 0.1, multires noise iterations 10, 20 epochs y 2790 steps.
- Dimensiones recomendadas: 1472 x 1140 como mejor opción aproximada 4:3, y 1024 x 1024 como valor por defecto 1:1.
- Rango de inferencia recomendado: 35 a 50 pasos.
- Fuentes de datos citadas: Playground, ArtStation y 4K Wallpapers.
- Licencia Apache-2.0.
Casos de uso
- Generación de retratos realistas tipo estudio a partir de texto.
- Creación de primeros planos faciales con fondos blancos, amarillos, azules u otros fondos limpios.
- Producción de variaciones de personajes con detalles de ojos, pelo, ropa, gorras, gafas, pendientes y otros accesorios.
- Experimentación con LoRA sobre Qwen-Image para estilos fotográficos de retrato.
- Prototipado visual para imágenes editoriales, avatares o conceptos de personajes con estética de sesión fotográfica.