gcresnext26ts.ch_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes GC-ResNeXt (ResNeXt con atención de 'Contexto Global'). Este modelo presenta un tronco de 3 capas en serie y activaciones SiLU. Entrenado en ImageNet-1k por Ross Wightman en timm. Esta arquitectura del modelo está implementada utilizando BYOBNet (Bring-Your-Own-Blocks Network) flexible de timm. BYOBNet permite la configuración de la disposición de bloques/etapas, disposición de tronco, paso de salida (dilación), capas de activación y normalización, y capas de atención de canal y espacial/autónoma, y también incluye características comunes a muchas otras arquitecturas de timm, tales como profundidad estocástica, punto de control de gradiente, decaimiento de la tasa de aprendizaje por capas y extracción de características por etapas.

Como usar

Clasificación de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('gcresnext26ts.ch_in1k', pretrained=True)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir una dimensión a la imagen

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapa de Características

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('gcresnext26ts.ch_in1k', pretrained=True, features_only=True)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir una dimensión a la imagen

for o in output:
    # imprimir la forma de cada mapa de características en la salida
    print(o.shape)

Embeddings de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('gcresnext26ts.ch_in1k', pretrained=True, num_classes=0)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida es un tensor de forma (batch_size, num_features)

# o de manera equivalente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# la salida no está acumulada, es un tensor de forma (1, 2048, 8, 8)

output = model.forward_head(output, pre_logits=True)
# la salida es un tensor de forma (1, num_features)

Funcionalidades

Disposición de bloques/etapas configurable
Disposición de tronco configurable
Paso de salida (dilación) configurable
Capas de activación y normalización configurables
Capas de atención de canal y espacial/autónoma configurables
Profundidad estocástica
Punto de control de gradiente
Decaimiento de la tasa de aprendizaje por capas
Extracción de características por etapas

Casos de uso

Clasificación de imágenes
Extracción de mapas de características
Generación de embeddings de imágenes