xiaolxl/GuoFeng3

xiaolxl

Texto a imagen

GuoFeng3 es un modelo de generación de imágenes text-to-image basado en Stable Diffusion/Diffusers, orientado a ilustración china de estilo guofeng o fantasía histórica china. Está pensado para personajes de estética antigua, personajes de juego con acabado 2.5D, escenas con arquitectura china y composiciones verticales. La tercera generación reduce la dificultad de uso, añade más elementos de escena y personajes masculinos, mejora parcialmente problemas de caras y manos, y trabaja con material de entrenamiento de hasta 1024 px en el lado más largo. El autor indica que el material de entrenamiento no incluye personas reales y prohíbe usar el modelo para entrenar estilos basados en celebridades o figuras públicas.

Como usar

Instalación con Diffusers:
pip install -U diffusers transformers accelerate

Ejemplo de uso en Python:
import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("xiaolxl/GuoFeng3", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso en Stable Diffusion WebUI: colocar el archivo GuoFeng3.ckpt en el directorio de modelos de Stable Diffusion. El modelo trae VAE propio; si el programa no lo detecta, seleccionar manualmente cualquier VAE para evitar salida gris.
Prompt sugerido: best quality, masterpiece, highres, 1girl, china dress, Beautiful face.
Prompt negativo sugerido: NSFW, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, bad feet.
Configuración avanzada recomendada: 50 pasos, sampler DPM++ SDE Karras o DDIM, tamaño mínimo 1024 px y CFG 4-6. Si aparecen ojos rojos, añadir red eyes al prompt negativo. Si los colores salen demasiado intensos, bajar el CFG. Para problemas de cara en imágenes de cuerpo completo, el autor sugiere quitar full body o usar un plugin de reparación facial.

Funcionalidades

Generación text-to-image con estética china clásica, guofeng y personajes de fantasía histórica.
Compatible con Diffusers, Safetensors y StableDiffusionPipeline.
Incluye VAE integrado; si la interfaz usada no lo soporta, se recomienda seleccionar un archivo VAE manualmente para evitar imágenes grises.
Versiones disponibles con ajustes distintos: GuoFeng3 original, 3.1 con retoques de retrato, 3.2 como versión recomendada intermedia, 3.2_light con mejores luces y sombras mediante LoRA Noise Offset, variantes LoRA y f16, 3.3 para cuerpo completo y 3.4 con nuevo entrenamiento y menor sobreajuste.
Mejoras frente a generaciones anteriores en facilidad de prompting, escenas, personajes masculinos y cierta corrección de fallos de cara y manos.
Funciona bien con prompts de alta calidad como `best quality`, `masterpiece`, `highres`, `1girl`, `china dress` y `Beautiful face`.
El autor recomienda imágenes de al menos 1024 px, CFG entre 4 y 6, y samplers como DPM++ SDE Karras, DDIM o Euler a según versión.
Licencia cc-by-nc-sa-4.0.

Casos de uso

Crear ilustraciones de personajes femeninos o masculinos de estética china antigua.
Generar arte de personajes para juegos de fantasía histórica china con textura 2.5D.
Producir escenas con vestidos chinos, joyería, adornos de pelo, arquitectura oriental, tejados, ciudades y paisajes urbanos.
Generar imágenes verticales de cuerpo completo, especialmente con las versiones GuoFeng3.3 o GuoFeng3.4.
Experimentar con LoRA para ajustar estilo, iluminación y contenido, especialmente en GuoFeng3.4 por su menor sobreajuste.
Crear retratos o bustos estilizados, aunque el autor menciona que la segunda generación puede rendir mejor en personajes y primeros planos.