EfficientNet (modelo b7)
google
Clasificación de imagen
EfficientNet (modelo b7) es un modelo entrenado en ImageNet-1k con una resolución de 600x600. Fue introducido en el artículo 'EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks' por Mingxing Tan y Quoc V. Le. Este modelo es un modelo de convolución pura (ConvNet) amigable con dispositivos móviles que propone un nuevo método de escalado que escala uniformemente todas las dimensiones de profundidad/anchura/resolución utilizando un coeficiente compuesto simple pero altamente efectivo.
Como usar
Aquí se muestra cómo utilizar este modelo para clasificar una imagen del dataset COCO 2017 en una de las 1,000 clases de ImageNet:
import torch
from datasets import load_dataset
from transformers import EfficientNetImageProcessor, EfficientNetForImageClassification
dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]
preprocessor = EfficientNetImageProcessor.from_pretrained("google/efficientnet-b7")
model = EfficientNetForImageClassification.from_pretrained("google/efficientnet-b7")
inputs = preprocessor(image, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label]),
Funcionalidades
- Modelo de convolución pura (ConvNet)
- Amigable con dispositivos móviles
- Nuevo método de escalado
- Entrenado en ImageNet-1k
- Resolución 600x600
Casos de uso
- Clasificación de imágenes
- Utilización en dispositivos móviles gracias a su diseño eficiente