Tencent-Hunyuan/HunyuanDiT-v1.2-Diffusers

Tencent-Hunyuan

Texto a imagen

HunyuanDiT v1.2 Diffusers es un modelo abierto de texto a imagen de Tencent Hunyuan basado en un Diffusion Transformer multirresolución. Está orientado a generar imágenes a partir de prompts en inglés y chino, con énfasis en comprensión fina del chino, coherencia texto-imagen, claridad del sujeto y calidad estética. Esta versión está publicada en formato Hugging Face Diffusers con pesos Safetensors y usa la licencia tencent-hunyuan-community.

Como usar

Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate

Ejemplo con DiffusionPipeline:
import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "Tencent-Hunyuan/HunyuanDiT-v1.2-Diffusers",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo con HunyuanDiTPipeline:
pip install --upgrade transformers
pip install git+https://github.com/huggingface/diffusers.git

import torch
from diffusers import HunyuanDiTPipeline

pipe = HunyuanDiTPipeline.from_pretrained(
    "Tencent-Hunyuan/HunyuanDiT-v1.2-Diffusers",
    torch_dtype=torch.float16
)
pipe.to("cuda")

# You may also use English prompt as HunyuanDiT supports both English and Chinese
# prompt = "An astronaut riding a horse"
prompt = "一个宇航员在骑马"
image = pipe(prompt).images[0]

Funcionalidades

Generación de imágenes a partir de texto con Diffusers.
Soporte para prompts en chino e inglés.
Arquitectura Diffusion Transformer multirresolución.
Comprensión fina de elementos y texto en chino.
Disponible en formato Safetensors para Hugging Face.
Compatible con HunyuanDiTPipeline y DiffusionPipeline.
Modelo abierto con tarjeta, paper arXiv 2405.08748 y repositorio asociado.

Casos de uso

Crear imágenes a partir de descripciones en chino o inglés.
Generar escenas con elementos culturales o lingüísticos chinos donde la comprensión del prompt es importante.
Prototipar flujos de texto a imagen en aplicaciones locales con Hugging Face Diffusers.
Comparar modelos abiertos de generación visual frente a SDXL, PixArt-alpha o Playground en coherencia, artefactos, claridad y estética.
Usar el modelo como base en notebooks, apps locales o pipelines de investigación de generación de imágenes.