sebotnet33ts_256.a1h_in1k

timm

Clasificación de imagen

Un modelo de clasificación de imágenes BotNet con atención de canal Squeeze-and-Excitation, basado en la arquitectura ResNet. Entrenado en ImageNet-1k en timm por Ross Wightman. Este modelo no se ajustó a ninguna configuración de papel específica, se ajustó para tiempos de entrenamiento razonables y una frecuencia reducida de bloques de autoatención. La arquitectura del modelo se implementa utilizando BYOBNet flexible de timm (Bring-Your-Own-Blocks Network).

Como usar

Clasificación de imágenes
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('sebotnet33ts_256.a1h_in1k', pretrained=True)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # hacer 'unsqueeze' de una sola imagen para convertirla en un lote de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de mapas de características
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'sebotnet33ts_256.a1h_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # hacer 'unsqueeze' de una sola imagen para convertirla en un lote de 1

for o in output:
# imprimir la forma de cada mapa de características en la salida
# e.g.:
#  torch.Size([1, 32, 128, 128])
#  torch.Size([1, 256, 64, 64])
#  torch.Size([1, 512, 32, 32])
#  torch.Size([1, 1024, 16, 16])
#  torch.Size([1, 1280, 8, 8])

print(o.shape)

Embeddings de imágen
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'sebotnet33ts_256.a1h_in1k',
pretrained=True,
num_classes=0, # eliminar el clasificador nn.Linear
)
model = model.eval()

# obtener las transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida es un tensor (batch_size, num_features)

# o de manera equivalente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# la salida no está agrupada, es un tensor con forma (1, 1280, 8, 8)

output = model.forward_head(output, pre_logits=True)
# la salida es un tensor con forma (1, num_features)

Funcionalidades

Basado en la receta ResNet Strikes Back A1
Optimizador LAMB
Deserción más fuerte, profundidad estocástica y RandAugment que la receta en papel A1
Horario de LR coseno con calentamiento
Capacidades de configuración de BYOBNet: diseño de bloques / etapas, intercalado de tipos de bloques, diseño de stem, stride de salida (dilatación), capas de activación y norma, capas de canal y autoatención espacial
Otras características comunes a muchas arquitecturas de timm como: profundidad estocástica, point de control de gradiente, decaimiento de LR por capa, extracción de características por etapa

Casos de uso

Clasificación de imágenes
Extracción de mapas de características
Generación de embeddings de imágenes