timm/regnety_080.ra3_in1k

timm

Clasificación de imagen

Un modelo de clasificación de imágenes RegNetY-8GF. Entrenado en ImageNet-1k por Ross Wightman en timm. La implementación de RegNet en timm incluye una serie de mejoras que no están presentes en otras implementaciones, incluyendo: profundidad estocástica, punto de control de gradiente, decaimiento de tasa de aprendizaje por capa, paso de salida configurable (dilación), capas de activación y normalización configurables, opción para un bloque de cuello de botella de preactivación utilizado en la variante RegNetV y las únicas definiciones de modelo RegNetZ conocidas con pesos preentrenados.

Como usar

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('regnety_080.ra3_in1k', pretrained=True)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # ajustar una sola imagen en un lote de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)


from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('regnety_080.ra3_in1k', pretrained=True, features_only=True)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # ajustar una sola imagen en un lote de 1

for o in output:
    print(o.shape)

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('regnety_080.ra3_in1k', pretrained=True, num_classes=0) # eliminar clasificador nn.Linear
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida es un tensor con forma (batch_size, num_features)

# o también (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
output = model.forward_head(output, pre_logits=True)

Funcionalidades

Clasificación de imágenes
Extracción de mapas de características
Embbebimientos de imágenes
Profundidad estocástica
Punto de control de gradiente
Decaimiento de tasa de aprendizaje por capa
Paso de salida configurable (dilación)
Capas de activación y normalización configurables
Opción para bloque de cuello de botella de preactivación

Casos de uso

Clasificación de imágenes
Extracción de mapas de características
Generación de embeddings de imágenes