MobileCLIP-S2

apple

Clasificación de imagen

MobileCLIP fue introducido en 'MobileCLIP: Modelos Rápidos de Imagen-Texto a través de Entrenamiento Reforzado Multi-Modal' (CVPR 2024), por Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Raviteja Vemulapalli, Oncel Tuzel. Este repositorio contiene el punto de control MobileCLIP-S2 para timm. MobileCLIP-S2 obtiene un mejor rendimiento promedio de cero-shot que el modelo ViT-B/16 de SigLIP mientras es 2.3 veces más rápido y 2.1 veces más pequeño, y entrenado con 3 veces menos muestras vistas.

Como usar

# Uso del modelo MobileCLIP-S0
model = torch.hub.load('apple/mobileclip_s2_timm', 'MobileCLIP-S0')
# Inferencia
image = ... # imagen de entrada
text = ... # texto de entrada
result = model(image, text)

Funcionalidades

El modelo más pequeño MobileCLIP-S0 obtiene un rendimiento de cero-shot similar al modelo ViT-B/16 de OpenAI mientras es 4.8 veces más rápido y 2.8 veces más pequeño.
MobileCLIP-S2 obtiene un mejor rendimiento promedio de cero-shot que el modelo ViT-B/16 de SigLIP mientras es 2.3 veces más rápido y 2.1 veces más pequeño, además de estar entrenado con 3 veces menos muestras vistas.
MobileCLIP-B(LT) alcanza un rendimiento de cero-shot en ImageNet del 77.2%, significativamente mejor que trabajos recientes como DFN y SigLIP con arquitecturas similares o incluso el ViT-L/14@336 de OpenAI.

Casos de uso

Clasificación de imágenes.
Emparejamiento de imagen y texto.
Evaluación de rendimiento cero-shot en múltiples conjuntos de datos.