google/mobilenet_v2_1.0_224

google

Clasificación de imagen

MobileNet V2 es un modelo preentrenado en ImageNet-1k a una resolución de 224x224. Fue introducido en el trabajo 'MobileNetV2: Inverted Residuals and Linear Bottlenecks' por Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov y Liang-Chieh Chen. MobileNets son modelos pequeños, de baja latencia y bajo consumo de energía, diseñados para cumplir con las restricciones de recursos de una variedad de casos de uso. Pueden ser utilizados para clasificación, detección, incrustaciones y segmentación, similar a como se utilizan otros modelos a gran escala populares, como Inception. MobileNets se pueden ejecutar eficientemente en dispositivos móviles. MobileNets equilibran entre la latencia, el tamaño y la precisión.

Como usar

Así es como se usa este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

preprocessor = AutoImageProcessor.from_pretrained("google/mobilenet_v2_1.0_224")
model = AutoModelForImageClassification.from_pretrained("google/mobilenet_v2_1.0_224")

inputs = preprocessor(images=image, return_tensors="pt")

outputs = model(**inputs)
logits = outputs.logits

# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

Nota: Este modelo en realidad predice 1001 clases, las 1000 clases de ImageNet más una clase adicional de “fondo” (índice 0). Actualmente, tanto el extractor de características como el modelo son compatibles con PyTorch.

Funcionalidades

Preentrenado en ImageNet-1k
Resolución de 224x224
Modelo pequeño y de baja latencia
Bajo consumo de energía
Capacidad para clasificación, detección, incrustaciones y segmentación

Casos de uso

Clasificación de imágenes
Detección de objetos
Generación de incrustaciones
Segmentación de imágenes