regnetx_320.tv2_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes RegNetX-32GF. Entrenado con ImageNet-1k por los colaboradores de torchvision. La implementación de RegNet en timm incluye una serie de mejoras no presentes en otras implementaciones, incluyendo profundidad estocástica, punto de control de gradiente, decaimiento del LR por nivel, salida configurable de paso (dilatación), capas de activación y normalización configurables, opción para un bloque de cuello de botella de pre-activación usado en la variante RegNetV, y las únicas definiciones conocidas del modelo RegNetZ con pesos preentrenados.

Como usar

Clasificación de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('regnetx_320.tv2_in1k', pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # agrupar una imagen individual en un lote de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapas de Características

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('regnetx_320.tv2_in1k', pretrained=True, features_only=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # agrupar una imagen individual en un lote de 1

for o in output:
    print(o.shape)  # imprimir la forma de cada mapa de características en la salida

Embeddings de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('regnetx_320.tv2_in1k', pretrained=True, num_classes=0)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # la salida es un tensor con forma (batch_size, num_features)

# o equivalentemente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# la salida sin agrupar es un tensor con forma (1, 2520, 7, 7)

output = model.forward_head(output, pre_logits=True)
# la salida es un tensor con forma (1, num_features)

Funcionalidades

Profundidad estocástica
Punto de control de gradiente
Decaimiento del LR por nivel
Salida configurable de paso (dilatación)
Capas de activación y normalización configurables
Opción para un bloque de cuello de botella de pre-activación usado en la variante RegNetV
Únicas definiciones conocidas del modelo RegNetZ con pesos preentrenados

Casos de uso

Clasificación de imágenes
Extracción de mapas de características de imágenes
Generación de embeddings de imágenes