Amshaker/Mobile-O-0.5B

Amshaker

Texto a imagen

Mobile-O-0.5B es un modelo multimodal compacto y unificado para comprensión visual-lingüística y generación de imágenes en dispositivos móviles o edge. Combina capacidades de VQA, OCR, razonamiento sobre imágenes, generación texto-a-imagen y edición imagen+texto-a-imagen dentro de una sola arquitectura optimizada para baja memoria y ejecución local.

Como usar

Instalación/carga directa con Transformers:
from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("Amshaker/Mobile-O-0.5B", dtype="auto")

Descarga de los pesos específicos:
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id="Amshaker/Mobile-O-0.5B",
    repo_type="model",
    local_dir="checkpoints",
    allow_patterns=["final_merged_model_23620/*"]
)

Comprensión de imagen:
python infer_und.py \
  --model_path checkpoints/final_merged_model_23620/ \
  --image_path assets/cute_cat.png \
  --prompt "What is in the image?"

Generación de imagen:
python infer_gen.py \
  --model_path checkpoints/final_merged_model_23620/ \
  --prompt "A vibrant tropical rainforest scene with a scarlet macaw perched on a moss-covered branch"

Edición de imagen:
python infer_edit.py \
  --model_path checkpoints/final_merged_model_23620/ \
  --image_path assets/cute_cat.png \
  --prompt "Make the cat wear a hat"

Funcionalidades

Modelo unificado de visión, lenguaje y difusión para comprensión multimodal y generación visual.
Diseñado para despliegue en móvil y edge, con huella de memoria inferior a 2 GB según la ficha del modelo.
Genera imágenes a 512x512 usando un decodificador de difusión SANA-600M-512.
Comprensión visual rápida para tareas como VQA, OCR y razonamiento sobre imágenes.
Arquitectura basada en FastVLM-0.5B, FastViT, Qwen2-0.5B y un proyector Mobile Conditioning Projector de unos 2,4M parámetros.
Entrenado en tres etapas: preentrenamiento con 4M pares texto-imagen, SFT con unas 105K muestras curadas y postentrenamiento multimodal con unas 105K tuplas.
Publicado en Hugging Face con Transformers y pesos Safetensors BF16 bajo licencia CC BY-NC 4.0 para investigación no comercial.

Casos de uso

Asistentes conversacionales multimodales que responden texto a partir de texto e imágenes.
Comprensión de imágenes en móvil, incluyendo preguntas visuales, OCR y razonamiento visual.
Generación de imágenes 512x512 desde prompts de texto en entornos con recursos limitados.
Edición de imágenes guiada por instrucciones de texto.
Prototipos de IA on-device donde se necesita combinar visión, lenguaje y generación visual sin depender de un proveedor de inferencia externo.