HiDream-ai/HiDream-I1-Fast

HiDream-ai
Texto a imagen

HiDream-I1-Fast es la variante rápida de HiDream-I1, un modelo fundacional abierto de generación de imágenes con 17B parámetros. Está orientado a generación texto-a-imagen de alta calidad en segundos mediante Diffusers/Safetensors, con fuerte seguimiento de prompts y resultados competitivos en DPG-Bench, GenEval y HPSv2.1. El repositorio declara licencia MIT para los modelos Transformer y permite uso personal, científico y comercial del contenido generado, sujeto a las licencias de componentes como FLUX.1 schnell, T5 y Llama 3.1.

Como usar

Instalación y ejecución local indicadas en la tarjeta del modelo:

pip install -r requirements.txt

Clonar el repositorio de GitHub:

git clone https://github.com/HiDream-ai/HiDream-I1

Ejecutar inferencia según la variante deseada:

# For full model inference
python ./inference.py --model_type full

# For distilled dev model inference
python ./inference.py --model_type dev

# For distilled fast model inference
python ./inference.py --model_type fast

Ejecutar la demo interactiva con Gradio:

python gradio_demo.py

Notas de uso: se requiere Flash Attention y se recomienda CUDA 12.4 para instalación manual. El script de inferencia descarga automáticamente meta-llama/Meta-Llama-3.1-8B-Instruct; si hay problemas de red, conviene descargar esos archivos antes y colocarlos en la caché correspondiente.

Funcionalidades

Generación texto-a-imagen con la clase HiDreamImagePipeline.
Variante Fast destilada para inferencia más rápida frente al modelo completo.
Alta calidad visual en estilos fotográficos, caricatura, arte conceptual, pintura y otros estilos.
Seguimiento de instrucciones destacado: HiDream-I1 reporta 85.89 en DPG-Bench y 0.83 en GenEval.
Puntuación HPSv2.1 promedio de 33.82 para HiDream-I1, con resultados fuertes en animación, concept art, pintura y fotografía.
Modelo abierto con pesos en formato Safetensors y compatibilidad con Diffusers.
Licencia MIT para los modelos Transformer; las imágenes generadas pueden usarse libremente para proyectos personales, investigación y aplicaciones comerciales.
Incluye demo Gradio para generación interactiva de imágenes.

Casos de uso

Generar imágenes a partir de prompts en inglés con baja latencia usando la variante Fast.
Crear imágenes comerciales o de investigación bajo una configuración abierta y permisiva.
Producir contenido visual en múltiples estilos, incluidos fotorealismo, ilustración, arte conceptual, pintura y estética de caricatura.
Prototipar flujos de generación de imágenes con Diffusers o mediante una demo Gradio local.
Evaluar modelos texto-a-imagen frente a benchmarks como DPG-Bench, GenEval y HPSv2.1.