gcresnext50ts.ch_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes GC-ResNeXt (ResNeXt con atención 'Global Context'). Este modelo presenta una estructura de tallo de 3 capas en niveles y activaciones SiLU. Entrenado en ImageNet-1k por Ross Wightman en timm. Esta arquitectura de modelo está implementada utilizando la flexible BYOBNet (Bring-Your-Own-Blocks Network) de timm, que permite la configuración de disposición de bloques/etapas, disposición del tallo, stride de salida (dilatación), capas de activación y normalización, y capas de atención canal y espacial/propia, e incluye características comunes a muchas otras arquitecturas de timm, incluyendo profundidad estocástica, punto de control de gradientes, decaimiento de la tasa de aprendizaje por capa, y extracción de características por etapa.

Como usar

Clasificación de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('gcresnext50ts.ch_in1k', pretrained=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # unsqueeze single image into batch of 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de Mapas de Características

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('gcresnext50ts.ch_in1k', pretrained=True, features_only=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # unsqueeze single image into batch of 1

for o in output:
    print(o.shape)

Embeddings de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('gcresnext50ts.ch_in1k', pretrained=True, num_classes=0) # remove classifier nn.Linear
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # output is (batch_size, num_features) shaped tensor

# or equivalently (without needing to set num_classes=0)
output = model.forward_features(transforms(img).unsqueeze(0))
# output is unpooled, a (1, 2048, 8, 8) shaped tensor

output = model.forward_head(output, pre_logits=True)
# output is a (1, num_features) shaped tensor

Funcionalidades

Clasificación de imágenes
Extracción de mapas de características
Embeddings de imágenes
Arquitectura BYOBNet configurable
Stem de 3 capas en niveles
Activaciones SiLU
Profundidad estocástica
Punto de control de gradientes
Decaimiento de tasa de aprendizaje por capa
Extracción de características por etapa

Casos de uso

Clasificación precisa de imágenes
Extracción de mapas de características de imágenes para análisis
Generación de embeddings de imágenes para tareas de recuperación de información o similares
Base de un modelo de reconocimiento visual que requiere personalización