moving-j/HyperCLOVAX-SEED-Omni-8B-VG
moving-j
Texto a imagen
HyperCLOVAX-SEED-Omni-8B-VG es la variante de generación visual de HyperCLOVA X SEED 8B Omni. Elimina los componentes de audio del modelo Omni y se centra en generación de imágenes a partir de texto y edición de imágenes mediante instrucciones. Se distribuye como pipeline personalizado de Diffusers, usa safetensors con unos 10B parámetros F32 y está pensado para pruebas o prototipado en GPU única con bf16 o cuantización.
Como usar
Instalación básica:
pip install transformers==4.52.4 diffusers accelerate torch einops
# Opcional
pip install bitsandbytes
pip install flash-attn
Uso rápido con Diffusers:
from diffusers import DiffusionPipeline
pipe = DiffusionPipeline.from_pretrained(
"moving-j/HyperCLOVAX-SEED-Omni-8B-VG",
custom_pipeline="pipeline_hcx_omni",
trust_remote_code=True,
# load_in_4bit=True,
# attn_implementation="eager",
)
image = pipe(
"황금빛 노을이 물드는 설산 능선, 웅장한 구름, 사실적인 사진 스타일",
height=768,
width=768,
num_inference_steps=50,
guidance_scale=1.75,
generator=42,
temperature=0.9,
top_p=0.9,
top_k=200,
).images[0]
image.save("t2i.png")
Edición de imagen:
from PIL import Image
input_img = Image.open("photo.jpg")
edited = pipe(
"수채화 스타일로 변환해줘",
image=input_img,
guidance_scale=0.0,
).images[0]
edited.save("edit.png")
Uso desde un clon local:
git clone https://huggingface.co/moving-j/HyperCLOVAX-SEED-Omni-8B-VG
from pipeline_hcx_omni import HCXOmniPipeline
pipe = HCXOmniPipeline.from_pretrained("./HyperCLOVAX-SEED-Omni-8B-VG")
Ejemplos CLI:
python examples/text_to_image.py \
--prompt "황금빛 노을이 물드는 설산 능선" \
--aspect-ratio 16:9
python examples/image_editing.py \
--image examples/assets/input_image.jpg \
--instruction "수채화 스타일로 변환해줘"
Funcionalidades
- Generación texto-a-imagen con el pipeline HCXOmniPipeline de Diffusers.
- Edición de imágenes mediante una imagen de entrada y una instrucción textual.
- Modelo multimodal de tipo vision-language orientado a generación visual.
- Pipeline personalizado con trust_remote_code y custom_pipeline="pipeline_hcx_omni".
- Soporte para atajos de relación de aspecto como 1:1, 16:9, 9:16, 4:3, 3:4, 3:2 y 2:3.
- Compatible con bf16 en GPU grande y con cuantización 4-bit u 8-bit para reducir VRAM.
- Puede usar Flash Attention 2 automáticamente si está instalado.
- No está desplegado en proveedores de inferencia de Hugging Face en la página analizada.
Casos de uso
- Crear imágenes de alta resolución desde prompts descriptivos, especialmente en flujos locales con Diffusers.
- Editar una imagen existente con instrucciones textuales, por ejemplo cambiar el estilo visual o añadir elementos.
- Prototipar aplicaciones de generación visual basadas en HyperCLOVA X SEED sin desplegar OmniServe.
- Evaluar un pipeline multimodal vision-language para generación y edición de imágenes en GPU única.