convnext_femto_ols.d1_in1k

timm

Clasificación de imagen

Un modelo de clasificación de imágenes ConvNeXt. Entrenado en timm en ImageNet-1k por Ross Wightman.

Como usar

Para la clasificación de imágenes:
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('convnext_femto_ols.d1_in1k', pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # convertir imagen única en lote de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Para la extracción de mapa de características:
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'convnext_femto_ols.d1_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # convertir imagen única en lote de 1

for o in output:
# imprimir forma de cada mapa de características en output
print(o.shape)

Para obtener embeddings de imágenes:
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
'convnext_femto_ols.d1_in1k',
pretrained=True,
num_classes=0, # elimina clasificador nn.Linear
)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # el output es un tensor con forma (batch_size, num_features)

# o equivalentemente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# el output no está agrupado, es un tensor con forma (1, 384, 7, 7)

output = model.forward_head(output, pre_logits=True)
# el output es un tensor con forma (1, num_features)

Funcionalidades

Clasificación de imágenes
Extracción de mapa de características
Embeddings de imágenes
Modelo de retroceso

Casos de uso

Clasificación de imágenes
Extracción de características de imágenes para análisis posterior
Generación de embeddings de imágenes para tareas de búsqueda o comparación
Base para la creación de otros modelos de aprendizaje profundo