meituan-longcat/LongCat-Image-Dev

meituan-longcat
Texto a imagen

LongCat-Image-Dev es una variante de desarrollo de LongCat-Image publicada como checkpoint intermedio de entrenamiento. Está pensada para que la comunidad pueda hacer desarrollo posterior, incluyendo ajuste fino supervisado, LoRA y otros métodos de personalización, partiendo de un estado más plástico y menos restringido que un modelo final alineado.

Como usar

Uso directo con Transformers:

# Load model directly from transformers
import AutoModel
model = AutoModel.from_pretrained("meituan-longcat/LongCat-Image-Dev", dtype="auto")

Funcionalidades

Modelo de texto a imagen basado en Transformers y Diffusers.
Checkpoint de mid-training orientado a desarrollo y personalización posterior.
Estado de alta plasticidad diseñado para facilitar SFT, LoRA y otros ajustes sin la rigidez inducida por RL.
Incluye un marco de entrenamiento completo para SFT, LoRA, DPO, GRPO, MPO y entrenamiento especializado de edición.
Distribuido en formato Safetensors con licencia Apache 2.0.
No aparece desplegado en proveedores de inferencia en la página indicada.

Casos de uso

Ajuste fino supervisado de modelos de generación de imágenes.
Personalización mediante LoRA para dominios o estilos específicos.
Investigación sobre alineamiento y entrenamiento posterior con DPO, GRPO o MPO.
Desarrollo de flujos de edición de imágenes basados en el pipeline de LongCat-Image.
Experimentación con checkpoints intermedios antes de una versión final más alineada.