resnext50_32x4d.fb_swsl_ig1b_ft_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes ResNeXt-B. Este modelo incluye: - Activaciones ReLU - Convolución de una sola capa 7x7 con agrupamiento - Atajo de convolución 1x1 con reducción de muestra - Convoluciones agrupadas embotelladas 3x3 Preentrenado en el conjunto de datos de hashtags de Instagram-1B usando aprendizaje semi-débilmente supervisado y afinado en ImageNet-1k por los autores del artículo.

Como usar

Clasificación de imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('resnext50_32x4d.fb_swsl_ig1b_ft_in1k', pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir dimensión extra para que sea un batch de 1 imagen

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de mapa de características

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('resnext50_32x4d.fb_swsl_ig1b_ft_in1k', pretrained=True, features_only=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir dimensión extra para que sea un batch de 1 imagen

for o in output:
    print(o.shape)

Embeddings de imágenes

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('resnext50_32x4d.fb_swsl_ig1b_ft_in1k', pretrained=True, num_classes=0) # remover el clasificador nn.Linear
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionar)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # la salida es un tensor con forma (batch_size, num_features)

# o de manera equivalente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# la salida no está agrupada, es un tensor con forma (1, 2048, 7, 7)

output = model.forward_head(output, pre_logits=True)
# la salida es un tensor con forma (1, num_features)

Funcionalidades

Activaciones ReLU
Convolución de una sola capa 7x7 con agrupamiento
Atajo de convolución 1x1 con reducción de muestra
Convoluciones agrupadas embotelladas 3x3

Casos de uso

Clasificación de imágenes
Extracción de mapas de características
Generación de embeddings de imágenes