Amshaker/Mobile-O-0.5B
Amshaker
Texto a imagen
Mobile-O-0.5B es un modelo multimodal compacto y unificado para comprensión visual-lingüística y generación de imágenes en dispositivos móviles o edge. Combina capacidades de VQA, OCR, razonamiento sobre imágenes, generación texto-a-imagen y edición imagen+texto-a-imagen dentro de una sola arquitectura optimizada para baja memoria y ejecución local.
Como usar
Instalación/carga directa con Transformers:
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("Amshaker/Mobile-O-0.5B", dtype="auto")
Descarga de los pesos específicos:
from huggingface_hub import snapshot_download
snapshot_download(
repo_id="Amshaker/Mobile-O-0.5B",
repo_type="model",
local_dir="checkpoints",
allow_patterns=["final_merged_model_23620/*"]
)
Comprensión de imagen:
python infer_und.py \
--model_path checkpoints/final_merged_model_23620/ \
--image_path assets/cute_cat.png \
--prompt "What is in the image?"
Generación de imagen:
python infer_gen.py \
--model_path checkpoints/final_merged_model_23620/ \
--prompt "A vibrant tropical rainforest scene with a scarlet macaw perched on a moss-covered branch"
Edición de imagen:
python infer_edit.py \
--model_path checkpoints/final_merged_model_23620/ \
--image_path assets/cute_cat.png \
--prompt "Make the cat wear a hat"
Funcionalidades
- Modelo unificado de visión, lenguaje y difusión para comprensión multimodal y generación visual.
- Diseñado para despliegue en móvil y edge, con huella de memoria inferior a 2 GB según la ficha del modelo.
- Genera imágenes a 512x512 usando un decodificador de difusión SANA-600M-512.
- Comprensión visual rápida para tareas como VQA, OCR y razonamiento sobre imágenes.
- Arquitectura basada en FastVLM-0.5B, FastViT, Qwen2-0.5B y un proyector Mobile Conditioning Projector de unos 2,4M parámetros.
- Entrenado en tres etapas: preentrenamiento con 4M pares texto-imagen, SFT con unas 105K muestras curadas y postentrenamiento multimodal con unas 105K tuplas.
- Publicado en Hugging Face con Transformers y pesos Safetensors BF16 bajo licencia CC BY-NC 4.0 para investigación no comercial.
Casos de uso
- Asistentes conversacionales multimodales que responden texto a partir de texto e imágenes.
- Comprensión de imágenes en móvil, incluyendo preguntas visuales, OCR y razonamiento visual.
- Generación de imágenes 512x512 desde prompts de texto en entornos con recursos limitados.
- Edición de imágenes guiada por instrucciones de texto.
- Prototipos de IA on-device donde se necesita combinar visión, lenguaje y generación visual sin depender de un proveedor de inferencia externo.