HiDream-ai/HiDream-I1-Dev

HiDream-ai

Texto a imagen

HiDream-I1-Dev es la variante destilada para desarrollo de HiDream-I1, un modelo fundacional abierto de generación de imágenes a partir de texto con 17.000 millones de parámetros. Está orientado a producir imágenes de alta calidad en segundos, con buen seguimiento de prompts y soporte para estilos como fotorrealismo, cartoon, arte conceptual, pintura y fotografía. El repositorio publica los modelos Transformer bajo licencia MIT, aunque usa componentes externos como el VAE de FLUX.1 schnell y codificadores de texto T5 XXL y Llama 3.1 8B Instruct con sus propias licencias.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("HiDream-ai/HiDream-I1-Dev", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso desde el repositorio oficial, tras instalar dependencias y Flash Attention:
pip install -r requirements.txt

git clone https://github.com/HiDream-ai/HiDream-I1

Scripts de inferencia:
# For full model inference
python ./inference.py --model_type full

# For distilled dev model inference
python ./inference.py --model_type dev

# For distilled fast model inference
python ./inference.py --model_type fast

Demo interactiva con Gradio:
python gradio_demo.py

Nota: el script de inferencia descarga automáticamente meta-llama/Meta-Llama-3.1-8B-Instruct; si hay problemas de red, conviene descargarlo antes y colocarlo en la caché correspondiente.

Funcionalidades

Generación texto-a-imagen mediante Diffusers y safetensors.
Modelo abierto con licencia MIT para los componentes Transformer.
Variante dev destilada pensada para inferencia más práctica que el modelo completo.
Buen seguimiento de instrucciones, con puntuaciones destacadas en GenEval y DPG-Bench.
Alto rendimiento en preferencias humanas según HPSv2.1, con media reportada de 33.82.
Compatible con uso comercial de las imágenes generadas, sujeto a las licencias de componentes externos y restricciones de uso responsable.
Pipeline recomendado HiDreamImagePipeline / DiffusionPipeline y soporte de proveedores de inferencia como fal.

Casos de uso

Crear imágenes fotorrealistas, artísticas, de cartoon, pintura o concepto a partir de prompts en lenguaje natural.
Prototipar flujos de generación de imágenes con Diffusers en GPU CUDA.
Integrar generación texto-a-imagen abierta en productos creativos o comerciales.
Evaluar modelos generativos frente a benchmarks como DPG-Bench, GenEval y HPSv2.1.
Ejecutar demos locales o notebooks para generación interactiva de imágenes.