Minthy/RouWei-0.8

Minthy

Texto a imagen

Modelo de texto a imagen basado en Diffusers y orientado a anime/ilustración, reentrenado en profundidad sobre Illustrious para maximizar la adherencia al prompt, el conocimiento de personajes, estilos y conceptos, y la calidad visual. Usa un conjunto equilibrado de 13 millones de imágenes únicas, con soporte fuerte tanto para etiquetas tipo booru como para prompts largos en lenguaje natural.

Como usar

Se recomienda generar en ~1 a 1.5 megapíxeles para txt2img, con resoluciones múltiplo de 64 como 1024x1024 o 1216x832. Ajustes sugeridos: Euler_a, CFG 4..8 para epsilon o 3..5 para vpred, y 20..28 pasos. Para highres fix, usar x1.5 latent + denoise 0.6 o un GAN con denoise 0.3..0.55.
El modelo funciona bien con etiquetas estilo Danbooru separadas por comas y también con prompts largos en lenguaje natural. Para mezclar estilos de artista, esas etiquetas deben ir en un bloque CLIP separado y después añadir BREAK en A1111 o usar concatenación de conditioning en Comfy; si no, la calidad puede degradarse.
Prompts de calidad recomendados:

Positivo: masterpiece, best quality
Negativo: worst quality, low quality, watermark

Etiquetas de estilo generales disponibles incluyen 2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style y pastel style.
Para controlar la imagen también admite meta tags como low brightness, high brightness, low saturation, high saturation, low gamma, high gamma, sharp colors, soft colors, hdr y sdr.

Funcionalidades

Generación de imágenes anime con alta adherencia al prompt
Compatibilidad con prompts mixtos: etiquetas booru y texto natural
Conocimiento amplio de personajes, conceptos, estilos y referencias culturales
Más de 35k estilos de artista reconocidos por el modelo
Reducción de problemas típicos como bleeding de tags, sesgos y marcas de agua en estilos populares
Colores vibrantes, gradientes suaves y mejor coherencia visual
Versión `vpred` disponible, pensada para funcionar sin problemas de burning usando CFG más bajo
Control adicional de brillo, saturación, gamma y contraste mediante meta tags
Versiones base y FP32/FP16 útiles para merges, extracción o fine-tuning

Casos de uso

Ilustración anime de alta calidad a partir de prompts detallados
Generación de fanart y personajes con referencias estilísticas concretas
Creación de imágenes en estilos de artistas específicos o mezclas de estilos
Producción de portadas, arte digital y composiciones estilizadas
Experimentación con prompts híbridos de tags y lenguaje natural
Base para merges, fine-tuning o extracción de variantes usando sus versiones base/FP32