regnetx_160.tv2_in1k

timm

Clasificación de imagen

Un modelo de clasificación de imágenes RegNetX-16GF. Pre-entrenado en ImageNet-1k por los colaboradores de torchvision. La implementación de timm RegNet incluye varias mejoras no presentes en otras implementaciones, tales como profundidad estocástica, punto de control de gradiente, decaimiento de la tasa de aprendizaje por capa, tamaño de salida configurable (dilatación), capas de activación y normalización configurables, opción para un bloque cuello de botella de pre-activación usado en la variante RegNetV, y las únicas definiciones de modelo RegNetZ con pesos pre-entrenados.

Como usar

Clasificación de Imagen
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('regnetx_160.tv2_in1k', pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir imagen sola a lote de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapa de Características
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'regnetx_160.tv2_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir imagen sola a lote de 1

for o in output:
# imprimir forma de cada mapa de características en la salida
print(o.shape)

Embeddings de Imagen
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'regnetx_160.tv2_in1k',
pretrained=True,
num_classes=0, # eliminar clasificador nn.Linear
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida es un tensor con forma de (batch_size, num_features)

# o de manera equivalente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# la salida es no agrupada, un tensor con forma de (1, 2048, 7, 7)

output = model.forward_head(output, pre_logits=True)
# la salida es un tensor con forma de (1, num_features)

Funcionalidades

Profundidad estocástica
Punto de control de gradiente
Decaimiento de la tasa de aprendizaje por capa
Tamaño de salida configurable (dilatación)
Capas de activación y normalización configurables
Opción para un bloque cuello de botella de pre-activación usado en la variante RegNetV
Únicas definiciones de modelo RegNetZ con pesos pre-entrenados

Casos de uso

Clasificación de imágenes
Extracción de mapas de características
Embeddings de imágenes