ByteDance/InfiniteYou

ByteDance

Texto a imagen

InfiniteYou es un framework de generación de imágenes personalizado para preservar la identidad de una persona al recrear fotos con prompts flexibles. Está basado en FLUX.1-dev y usa InfuseNet para inyectar rasgos de identidad en el modelo DiT mediante conexiones residuales, buscando mejorar la similitud facial sin perder alineación texto-imagen, calidad visual ni estética.

Como usar

Para usar el modelo, el repositorio indica clonar el código oficial de GitHub y seguir sus instrucciones de instalación para inferencia local. Hugging Face no ofrece aún snippets completos para la librería InfiniteYou:
# No code snippets available yet for this library.
# To use this model, check the repository files and the library's documentation.
# Want to help? PRs adding snippets are welcome at:
# https://github.com/huggingface/huggingface.js

Consejos de uso del modelo: usar aes_stage2 por defecto si se prioriza estética y alineación con el prompt; probar sim_stage1 si se necesita mayor parecido de identidad. Normalmente no hace falta ajustar parámetros, pero si el resultado no conserva bien la identidad se puede probar primero un --infusenet_guidance_start algo mayor, por ejemplo 0.1, y después un --infusenet_conditioning_scale algo menor, por ejemplo 0.9.

Funcionalidades

Generación texto-a-imagen con personalización de identidad basada en una persona de referencia.
Compatible con FLUX.1-dev y variantes como FLUX.1-schnell para generación más eficiente.
Incluye dos variantes: aes_stage2 para mejor alineación texto-imagen y estética, y sim_stage1 para mayor similitud de identidad.
Diseño plug-and-play compatible con ControlNets, LoRAs, IP-Adapter y enfoques como OminiControl.
Permite ajustar la fuerza de personalización con parámetros como infusenet_conditioning_scale e infusenet_guidance_start.
Incluye LoRAs opcionales de Realism y Anti-blur para ampliar la flexibilidad visual.

Casos de uso

Recrear fotos de una persona conservando su identidad en escenas, estilos o contextos nuevos.
Generar retratos personalizados con mejor alineación entre prompt e imagen que métodos como IP-Adapter o PuLID-FLUX según la tarjeta del modelo.
Combinar personalización de identidad con ControlNets o LoRAs para tareas visuales más controladas.
Experimentación académica en generación de imágenes con identidad preservada usando modelos Diffusion Transformer.
Generación personalizada multi-concepto, por ejemplo combinando identidad y objeto mediante compatibilidad con OminiControl.