moving-j/HyperCLOVAX-SEED-Omni-8B-VG

moving-j
Texto a imagen

HyperCLOVAX-SEED-Omni-8B-VG es la variante de generación visual de HyperCLOVA X SEED 8B Omni. Elimina los componentes de audio del modelo Omni y se centra en generación de imágenes a partir de texto y edición de imágenes mediante instrucciones. Se distribuye como pipeline personalizado de Diffusers, usa safetensors con unos 10B parámetros F32 y está pensado para pruebas o prototipado en GPU única con bf16 o cuantización.

Como usar

Instalación básica:

pip install transformers==4.52.4 diffusers accelerate torch einops
# Opcional
pip install bitsandbytes
pip install flash-attn

Uso rápido con Diffusers:

from diffusers import DiffusionPipeline

pipe = DiffusionPipeline.from_pretrained(
    "moving-j/HyperCLOVAX-SEED-Omni-8B-VG",
    custom_pipeline="pipeline_hcx_omni",
    trust_remote_code=True,
    # load_in_4bit=True,
    # attn_implementation="eager",
)

image = pipe(
    "황금빛 노을이 물드는 설산 능선, 웅장한 구름, 사실적인 사진 스타일",
    height=768,
    width=768,
    num_inference_steps=50,
    guidance_scale=1.75,
    generator=42,
    temperature=0.9,
    top_p=0.9,
    top_k=200,
).images[0]
image.save("t2i.png")

Edición de imagen:

from PIL import Image

input_img = Image.open("photo.jpg")
edited = pipe(
    "수채화 스타일로 변환해줘",
    image=input_img,
    guidance_scale=0.0,
).images[0]
edited.save("edit.png")

Uso desde un clon local:

git clone https://huggingface.co/moving-j/HyperCLOVAX-SEED-Omni-8B-VG
from pipeline_hcx_omni import HCXOmniPipeline

pipe = HCXOmniPipeline.from_pretrained("./HyperCLOVAX-SEED-Omni-8B-VG")

Ejemplos CLI:

python examples/text_to_image.py \
  --prompt "황금빛 노을이 물드는 설산 능선" \
  --aspect-ratio 16:9

python examples/image_editing.py \
  --image examples/assets/input_image.jpg \
  --instruction "수채화 스타일로 변환해줘"

Funcionalidades

Generación texto-a-imagen con el pipeline HCXOmniPipeline de Diffusers.
Edición de imágenes mediante una imagen de entrada y una instrucción textual.
Modelo multimodal de tipo vision-language orientado a generación visual.
Pipeline personalizado con trust_remote_code y custom_pipeline="pipeline_hcx_omni".
Soporte para atajos de relación de aspecto como 1:1, 16:9, 9:16, 4:3, 3:4, 3:2 y 2:3.
Compatible con bf16 en GPU grande y con cuantización 4-bit u 8-bit para reducir VRAM.
Puede usar Flash Attention 2 automáticamente si está instalado.
No está desplegado en proveedores de inferencia de Hugging Face en la página analizada.

Casos de uso

Crear imágenes de alta resolución desde prompts descriptivos, especialmente en flujos locales con Diffusers.
Editar una imagen existente con instrucciones textuales, por ejemplo cambiar el estilo visual o añadir elementos.
Prototipar aplicaciones de generación visual basadas en HyperCLOVA X SEED sin desplegar OmniServe.
Evaluar un pipeline multimodal vision-language para generación y edición de imágenes en GPU única.