timm/convnext_large_mlp.clip_laion2b_soup_ft_in12k_in1k_384

timm

Clasificación de imagen

Un modelo de clasificación de imágenes ConvNeXt. Pesos de la torre de imagen CLIP preentrenados en OpenCLIP en LAION y afinados en ImageNet-12k seguido por ImageNet-1k en timm por Ross Wightman.

Como usar

Clasificación de imágenes
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('convnext_large_mlp.clip_laion2b_soup_ft_in12k_in1k_384', pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir una dimensión a la imagen para convertirla en un lote de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Extracción de mapa de características
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'convnext_large_mlp.clip_laion2b_soup_ft_in12k_in1k_384',
pretrained=True,
features_only=True,
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # añadir una dimensión a la imagen para convertirla en un lote de 1

for o in output:
# imprimir la forma de cada mapa de características en el output
# por ejemplo:
#  torch.Size([1, 192, 96, 96])
#  torch.Size([1, 384, 48, 48])
#  torch.Size([1, 768, 24, 24])
#  torch.Size([1, 1536, 12, 12])

print(o.shape)

Incrustaciones de imágenes
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'convnext_large_mlp.clip_laion2b_soup_ft_in12k_in1k_384',
pretrained=True,
num_classes=0, # eliminar el clasificador nn.Linear
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # el output es un tensor de forma (batch_size, num_features)

# o de forma equivalente (sin necesidad de configurar num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# el output no está agrupado, es un tensor de forma (1, 1536, 12, 12)

output = model.forward_head(output, pre_logits=True)
# el output es un tensor de forma (1, num_features)

Funcionalidades

Clasificación de imágenes
Extracción de mapa de características
Incrustaciones de imágenes

Casos de uso

Clasificación de imágenes
Extracción de características para otras aplicaciones de ML
Generación de incrustaciones de imágenes para recuperación de información o recomendación