prithivMLmods/Qwen-Image-Studio-Realism

prithivMLmods

Texto a imagen

LoRA de texto a imagen para Qwen-Image orientado a retratos de realismo de estudio. Se activa con la frase "Studio Realism" y está pensado para generar primeros planos con iluminación limpia, fondos sólidos o blancos, rasgos faciales detallados, ropa y accesorios definidos, y estética fotográfica de estudio.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Qwen/Qwen-Image", dtype=torch.bfloat16, device_map="cuda")
pipe.load_lora_weights("prithivMLmods/Qwen-Image-Studio-Realism")

prompt = "Studio Realism, a close-up shot of a young womans face features a neutral expression. The womans eyes are a deep brown, her hair is a dark brown, and her eyebrows are a lighter shade of brown. She is wearing a black and yellow t-shirt, with a cream collar around her neck. Her ear is adorned with a gold earring, adding a touch of shine to her face. The backdrop is a stark white, and the womans hair is pulled back in a ponytail."
image = pipe(prompt).images[0]

Configuración local indicada en la tarjeta del modelo:
import torch
from diffusers import DiffusionPipeline

base_model = "Qwen/Qwen-Image"
pipe = DiffusionPipeline.from_pretrained(base_model, torch_dtype=torch.bfloat16)

lora_repo = "prithivMLmods/Qwen-Image-Studio-Realism"
trigger_word = "Studio Realism"
pipe.load_lora_weights(lora_repo)

device = torch.device("cuda")
pipe.to(device)

Incluye siempre "Studio Realism" al inicio o dentro del prompt para activar el estilo del LoRA.

Funcionalidades

Adaptador LoRA para el modelo base Qwen/Qwen-Image.
Especializado en retratos realistas de estudio y primeros planos de rostros.
Palabra disparadora requerida: "Studio Realism".
Entrenado con 27 imágenes HQ etiquetadas con florence2-en en lenguaje natural e inglés.
Configuración publicada: scheduler constant, optimizer AdamW, network dim 64, network alpha 32, noise offset 0.03, multires noise discount 0.1, multires noise iterations 10, 20 epochs y 2790 steps.
Dimensiones recomendadas: 1472 x 1140 como mejor opción aproximada 4:3, y 1024 x 1024 como valor por defecto 1:1.
Rango de inferencia recomendado: 35 a 50 pasos.
Fuentes de datos citadas: Playground, ArtStation y 4K Wallpapers.
Licencia Apache-2.0.

Casos de uso

Generación de retratos realistas tipo estudio a partir de texto.
Creación de primeros planos faciales con fondos blancos, amarillos, azules u otros fondos limpios.
Producción de variaciones de personajes con detalles de ojos, pelo, ropa, gorras, gafas, pendientes y otros accesorios.
Experimentación con LoRA sobre Qwen-Image para estilos fotográficos de retrato.
Prototipado visual para imágenes editoriales, avatares o conceptos de personajes con estética de sesión fotográfica.