Tencent-Hunyuan/HunyuanDiT-v1.2-Diffusers
Tencent-Hunyuan
Texto a imagen
HunyuanDiT v1.2 Diffusers es un modelo abierto de texto a imagen de Tencent Hunyuan basado en un Diffusion Transformer multirresolución. Está orientado a generar imágenes a partir de prompts en inglés y chino, con énfasis en comprensión fina del chino, coherencia texto-imagen, claridad del sujeto y calidad estética. Esta versión está publicada en formato Hugging Face Diffusers con pesos Safetensors y usa la licencia tencent-hunyuan-community.
Como usar
Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate
Ejemplo con DiffusionPipeline:
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"Tencent-Hunyuan/HunyuanDiT-v1.2-Diffusers",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo con HunyuanDiTPipeline:
pip install --upgrade transformers
pip install git+https://github.com/huggingface/diffusers.git
import torch
from diffusers import HunyuanDiTPipeline
pipe = HunyuanDiTPipeline.from_pretrained(
"Tencent-Hunyuan/HunyuanDiT-v1.2-Diffusers",
torch_dtype=torch.float16
)
pipe.to("cuda")
# You may also use English prompt as HunyuanDiT supports both English and Chinese
# prompt = "An astronaut riding a horse"
prompt = "一个宇航员在骑马"
image = pipe(prompt).images[0]
Funcionalidades
- Generación de imágenes a partir de texto con Diffusers.
- Soporte para prompts en chino e inglés.
- Arquitectura Diffusion Transformer multirresolución.
- Comprensión fina de elementos y texto en chino.
- Disponible en formato Safetensors para Hugging Face.
- Compatible con HunyuanDiTPipeline y DiffusionPipeline.
- Modelo abierto con tarjeta, paper arXiv 2405.08748 y repositorio asociado.
Casos de uso
- Crear imágenes a partir de descripciones en chino o inglés.
- Generar escenas con elementos culturales o lingüísticos chinos donde la comprensión del prompt es importante.
- Prototipar flujos de texto a imagen en aplicaciones locales con Hugging Face Diffusers.
- Comparar modelos abiertos de generación visual frente a SDXL, PixArt-alpha o Playground en coherencia, artefactos, claridad y estética.
- Usar el modelo como base en notebooks, apps locales o pipelines de investigación de generación de imágenes.