Alpha-VLLM/Lumina-Image-2.0

Alpha-VLLM
Texto a imagen

Lumina-Image-2.0 es un modelo de generación de imágenes a partir de texto de 2.000 millones de parámetros. Usa un transformer de difusión basado en flujo y está implementado para Hugging Face Diffusers como parte del trabajo “Lumina-Image 2.0: A Unified and Efficient Image Generative Framework”.

Como usar

Instalación y uso básico con Diffusers:

pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "Alpha-VLLM/Lumina-Image-2.0",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo avanzado con Lumina2Pipeline y parámetros de generación:

import torch
from diffusers import Lumina2Pipeline

pipe = Lumina2Pipeline.from_pretrained(
    "Alpha-VLLM/Lumina-Image-2.0",
    torch_dtype=torch.bfloat16
)
pipe.enable_model_cpu_offload() #save some VRAM by offloading the model to CPU. Remove this if you have enough GPU power

prompt = "A serene photograph capturing the golden reflection of the sun on a vast expanse of water. The sun is positioned at the top center, casting a brilliant, shimmering trail of light across the rippling surface. The water is textured with gentle waves, creating a rhythmic pattern that leads the eye towards the horizon. The entire scene is bathed in warm, golden hues, enhancing the tranquil and meditative atmosphere. High contrast, natural lighting, golden hour, photorealistic, expansive composition, reflective surface, peaceful, visually harmonious."

image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=4.0,
    num_inference_steps=50,
    cfg_trunc_ratio=0.25,
    cfg_normalization=True,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]

image.save("lumina_demo.png")

Funcionalidades

Generación texto-a-imagen mediante Diffusers.
Modelo Safetensors compatible con Lumina2Pipeline.
Arquitectura de diffusion transformer basada en flujo con 2B parámetros.
Licencia Apache 2.0.
Soporte de ejecución local con descarga desde Hugging Face y descarga de CPU offload para ahorrar VRAM.
Disponible mediante proveedores de inferencia como fal y demos en Gradio, Colab, Kaggle y apps locales.

Casos de uso

Crear imágenes fotorealistas o estilizadas desde descripciones textuales detalladas.
Prototipar flujos de generación visual en Python con Hugging Face Diffusers.
Ejecutar generación local con optimización de memoria mediante CPU offload.
Integrar generación texto-a-imagen en demos Gradio, notebooks o aplicaciones creativas.