HiDream-ai/HiDream-I1-Fast
HiDream-I1-Fast es la variante rápida de HiDream-I1, un modelo fundacional abierto de generación de imágenes con 17B parámetros. Está orientado a generación texto-a-imagen de alta calidad en segundos mediante Diffusers/Safetensors, con fuerte seguimiento de prompts y resultados competitivos en DPG-Bench, GenEval y HPSv2.1. El repositorio declara licencia MIT para los modelos Transformer y permite uso personal, científico y comercial del contenido generado, sujeto a las licencias de componentes como FLUX.1 schnell, T5 y Llama 3.1.
Como usar
Instalación y ejecución local indicadas en la tarjeta del modelo:
pip install -r requirements.txt
Clonar el repositorio de GitHub:
git clone https://github.com/HiDream-ai/HiDream-I1
Ejecutar inferencia según la variante deseada:
# For full model inference
python ./inference.py --model_type full
# For distilled dev model inference
python ./inference.py --model_type dev
# For distilled fast model inference
python ./inference.py --model_type fast
Ejecutar la demo interactiva con Gradio:
python gradio_demo.py
Notas de uso: se requiere Flash Attention y se recomienda CUDA 12.4 para instalación manual. El script de inferencia descarga automáticamente meta-llama/Meta-Llama-3.1-8B-Instruct; si hay problemas de red, conviene descargar esos archivos antes y colocarlos en la caché correspondiente.
Funcionalidades
- Generación texto-a-imagen con la clase HiDreamImagePipeline.
- Variante Fast destilada para inferencia más rápida frente al modelo completo.
- Alta calidad visual en estilos fotográficos, caricatura, arte conceptual, pintura y otros estilos.
- Seguimiento de instrucciones destacado: HiDream-I1 reporta 85.89 en DPG-Bench y 0.83 en GenEval.
- Puntuación HPSv2.1 promedio de 33.82 para HiDream-I1, con resultados fuertes en animación, concept art, pintura y fotografía.
- Modelo abierto con pesos en formato Safetensors y compatibilidad con Diffusers.
- Licencia MIT para los modelos Transformer; las imágenes generadas pueden usarse libremente para proyectos personales, investigación y aplicaciones comerciales.
- Incluye demo Gradio para generación interactiva de imágenes.
Casos de uso
- Generar imágenes a partir de prompts en inglés con baja latencia usando la variante Fast.
- Crear imágenes comerciales o de investigación bajo una configuración abierta y permisiva.
- Producir contenido visual en múltiples estilos, incluidos fotorealismo, ilustración, arte conceptual, pintura y estética de caricatura.
- Prototipar flujos de generación de imágenes con Diffusers o mediante una demo Gradio local.
- Evaluar modelos texto-a-imagen frente a benchmarks como DPG-Bench, GenEval y HPSv2.1.