meituan-longcat/LongCat-Image-Dev
meituan-longcat
Texto a imagen
LongCat-Image-Dev es una variante de desarrollo de LongCat-Image publicada como checkpoint intermedio de entrenamiento. Está pensada para que la comunidad pueda hacer desarrollo posterior, incluyendo ajuste fino supervisado, LoRA y otros métodos de personalización, partiendo de un estado más plástico y menos restringido que un modelo final alineado.
Como usar
Uso directo con Transformers:
# Load model directly from transformers
import AutoModel
model = AutoModel.from_pretrained("meituan-longcat/LongCat-Image-Dev", dtype="auto")
Funcionalidades
- Modelo de texto a imagen basado en Transformers y Diffusers.
- Checkpoint de mid-training orientado a desarrollo y personalización posterior.
- Estado de alta plasticidad diseñado para facilitar SFT, LoRA y otros ajustes sin la rigidez inducida por RL.
- Incluye un marco de entrenamiento completo para SFT, LoRA, DPO, GRPO, MPO y entrenamiento especializado de edición.
- Distribuido en formato Safetensors con licencia Apache 2.0.
- No aparece desplegado en proveedores de inferencia en la página indicada.
Casos de uso
- Ajuste fino supervisado de modelos de generación de imágenes.
- Personalización mediante LoRA para dominios o estilos específicos.
- Investigación sobre alineamiento y entrenamiento posterior con DPO, GRPO o MPO.
- Desarrollo de flujos de edición de imágenes basados en el pipeline de LongCat-Image.
- Experimentación con checkpoints intermedios antes de una versión final más alineada.