EfficientNet (b2 model)

google

Clasificación de imagen

Modelo EfficientNet entrenado en ImageNet-1k a una resolución de 260x260. Fue introducido en el artículo EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks por Mingxing Tan y Quoc V. Le, y se publicó por primera vez en este repositorio. EfficientNet es un modelo puramente convolucional amigable para dispositivos móviles (ConvNet) que propone un nuevo método de escalado que ajusta uniformemente todas las dimensiones de profundidad/ancho/resolución utilizando un coeficiente compuesto simple pero altamente efectivo.

Como usar

A continuación, se muestra cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
import torch
from datasets import load_dataset
from transformers import EfficientNetImageProcessor, EfficientNetForImageClassification

dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

preprocessor = EfficientNetImageProcessor.from_pretrained("google/efficientnet-b2")
model = EfficientNetForImageClassification.from_pretrained("google/efficientnet-b2")

inputs = preprocessor(image, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

# el modelo predice una de las 1000 clases de ImageNet
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label]),

Para más ejemplos de código, nos referimos a la documentación.

Funcionalidades

Modelo convolucional puro
Escalado uniforme de todas las dimensiones (profundidad/ancho/resolución)
Amigable para dispositivos móviles

Casos de uso

Clasificación de imágenes