HiDream-ai/HiDream-I1-Dev
HiDream-I1-Dev es la variante destilada para desarrollo de HiDream-I1, un modelo fundacional abierto de generación de imágenes a partir de texto con 17.000 millones de parámetros. Está orientado a producir imágenes de alta calidad en segundos, con buen seguimiento de prompts y soporte para estilos como fotorrealismo, cartoon, arte conceptual, pintura y fotografía. El repositorio publica los modelos Transformer bajo licencia MIT, aunque usa componentes externos como el VAE de FLUX.1 schnell y codificadores de texto T5 XXL y Llama 3.1 8B Instruct con sus propias licencias.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("HiDream-ai/HiDream-I1-Dev", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso desde el repositorio oficial, tras instalar dependencias y Flash Attention:
pip install -r requirements.txt
git clone https://github.com/HiDream-ai/HiDream-I1
Scripts de inferencia:
# For full model inference
python ./inference.py --model_type full
# For distilled dev model inference
python ./inference.py --model_type dev
# For distilled fast model inference
python ./inference.py --model_type fast
Demo interactiva con Gradio:
python gradio_demo.py
Nota: el script de inferencia descarga automáticamente meta-llama/Meta-Llama-3.1-8B-Instruct; si hay problemas de red, conviene descargarlo antes y colocarlo en la caché correspondiente.
Funcionalidades
- Generación texto-a-imagen mediante Diffusers y safetensors.
- Modelo abierto con licencia MIT para los componentes Transformer.
- Variante dev destilada pensada para inferencia más práctica que el modelo completo.
- Buen seguimiento de instrucciones, con puntuaciones destacadas en GenEval y DPG-Bench.
- Alto rendimiento en preferencias humanas según HPSv2.1, con media reportada de 33.82.
- Compatible con uso comercial de las imágenes generadas, sujeto a las licencias de componentes externos y restricciones de uso responsable.
- Pipeline recomendado HiDreamImagePipeline / DiffusionPipeline y soporte de proveedores de inferencia como fal.
Casos de uso
- Crear imágenes fotorrealistas, artísticas, de cartoon, pintura o concepto a partir de prompts en lenguaje natural.
- Prototipar flujos de generación de imágenes con Diffusers en GPU CUDA.
- Integrar generación texto-a-imagen abierta en productos creativos o comerciales.
- Evaluar modelos generativos frente a benchmarks como DPG-Bench, GenEval y HPSv2.1.
- Ejecutar demos locales o notebooks para generación interactiva de imágenes.