Linaqruf/hitokomoru-diffusion

Linaqruf

Texto a imagen

Hitokomoru Diffusion es un modelo de difusión latente de texto a imagen, basado en Stable Diffusion y ajustado para generar ilustraciones de estilo anime inspiradas en la obra del artista japonés ヒトこもる/Hitokomoru. Fue entrenado con 255 imágenes recopiladas de Danbooru durante 20.000 pasos, usando aspect ratio bucketing para admitir resoluciones no cuadradas y etiquetas de Danbooru como prompts.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "Linaqruf/hitokomoru-diffusion",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo alternativo con StableDiffusionPipeline:
from diffusers import StableDiffusionPipeline
import torch

model_id = "Linaqruf/hitokomoru-diffusion"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "hatsune_miku"
image = pipe(prompt).images[0]
image.save("./hatsune_miku.png")

También puede usarse en notebooks como Google Colab o Kaggle y en aplicaciones locales como Draw Things y DiffusionBee.

Funcionalidades

Generación de imágenes anime a partir de texto mediante Stable Diffusion/Diffusers.
Ajuste fino sobre obras del artista japonés Hitokomoru con 20.000 pasos de entrenamiento y 80 épocas.
Soporte para etiquetas estilo Danbooru, por ejemplo personajes, rasgos visuales, fondos y composición.
Entrenamiento con NovelAI Aspect Ratio Bucketing Tool para manejar resoluciones no cuadradas.
Variantes disponibles por checkpoint: 5.000, 10.000, 15.000 y 20.000 pasos.
Compatible con Diffusers y exportable a ONNX, MPS y FLAX/JAX.
Licencia CreativeML OpenRAIL-M, con uso comercial permitido bajo restricciones de uso responsable.

Casos de uso

Crear ilustraciones anime de una chica o chico con prompts detallados.
Generar personajes de estilo japonés usando etiquetas de Danbooru.
Producir imágenes de personajes como Hatsune Miku con estética anime fina y colorida.
Experimentar con distintos checkpoints para comparar resultados a 5.000, 10.000, 15.000 y 20.000 pasos de entrenamiento.
Crear imágenes de texto a imagen localmente con Diffusers, Draw Things o DiffusionBee.