meituan-longcat/LongCat-Image

meituan-longcat

Texto a imagen

Modelo fundacional abierto y bilingüe (chino-inglés) de generación de imágenes, enfocado en renderizado multilingüe de texto, fotorrealismo y despliegue eficiente. Con 6B de parámetros, está diseñado para ofrecer alto rendimiento en texto a imagen y mejorar especialmente la generación de caracteres chinos.

Como usar

Instalación:
pip install git+https://github.com/huggingface/diffusers

Uso para generación de texto a imagen:
import torch
from diffusers import LongCatImagePipeline

if __name__ == '__main__':
    device = torch.device('cuda')
    pipe = LongCatImagePipeline.from_pretrained(
        "meituan-longcat/LongCat-Image",
        torch_dtype=torch.bfloat16
    )
    # pipe.to(device, torch.bfloat16)  # Descomentar en GPUs con mucha VRAM
    pipe.enable_model_cpu_offload()  # Reduce VRAM; requiere ~17 GB y es más lento

    prompt = '一个年轻的亚裔女性，身穿黄色针织衫，搭配白色项链。她的双手放在膝盖上，表情恬静。背景是一堵粗糙的砖墙，午后的阳光温暖地洒在她身上，营造出一种宁静而温馨的氛围。镜头采用中距离视角，突出她的神态和服饰的细节。光线柔和地打在她的脸上，强调她的五官和饰品的质感，增加画面的层次感与亲和力。整个画面构图简洁，砖墙的纹理与阳光的光影效果相得益彰，突显出人物的优雅与从容。'

    image = pipe(
        prompt,
        height=768,
        width=1344,
        guidance_scale=4.0,
        num_inference_steps=50,
        num_images_per_prompt=1,
        generator=torch.Generator("cpu").manual_seed(43),
        enable_cfg_renorm=True,
        enable_prompt_rewrite=True
    ).images[0]

    image.save('./t2i_example.png')

Nota importante para renderizado de texto: cuando el prompt incluya texto que deba aparecer dentro de la imagen, ese texto debe ir entre comillas simples o dobles, incluidas comillas inglesas o chinas. El modelo usa una codificación especial a nivel de carácter para contenido entrecomillado; si no se usan comillas, la calidad del texto generado se degrada notablemente.

Funcionalidades

Generación de imágenes a partir de texto con arquitectura eficiente de 6B parámetros.
Capacidad bilingüe en chino e inglés.
Renderizado de texto en chino con alta precisión, estabilidad y amplia cobertura de caracteres.
Fotorrealismo mejorado mediante una estrategia de datos y entrenamiento específica.
Compatibilidad con Diffusers y pesos en formato Safetensors.
Opciones de inferencia con offload a CPU para reducir uso de VRAM.
Soporte para refinamiento de prompt mediante reescritura automática del prompt.

Casos de uso

Generación de imágenes fotorrealistas a partir de prompts en chino o inglés.
Creación de imágenes que requieren texto visible, especialmente en chino.
Prototipado visual bilingüe para diseño, marketing o contenido creativo.
Escenarios de inferencia con recursos limitados donde importa la eficiencia del modelo.