timm/maxxvitv2_nano_rw_256.sw_in1k
timm
Clasificación de imagen
Un modelo de clasificación de imágenes específico de timm MaxxViT-V2. Entrenado en timm en ImageNet-1k por Ross Wightman. Entrenamiento de ImageNet-1k realizado en TPUs gracias al apoyo del programa TRC. MaxxViT cubre una serie de arquitecturas de modelos relacionadas que comparten una estructura común, incluidas CoAtNet, MaxViT, CoAtNeXt y MaxxViT-V2. Estos modelos combinan bloques convolucionales de MBConv en etapas tempranas con bloques de transformadores de autoatención en etapas posteriores. Las variaciones del modelo presentan diferentes configuraciones específicas de timm para favorecer el uso ansioso de PyTorch.
Como usar
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('maxxvitv2_nano_rw_256.sw_in1k', pretrained=True)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, redimensionado)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # añadir dimensión de lote de 1 imagen
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
Extracción del Mapa de Características
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('maxxvitv2_nano_rw_256.sw_in1k', pretrained=True, features_only=True)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, redimensionado)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # añadir dimensión de lote de 1 imagen
for o in output:
print(o.shape)
Embebidos de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('maxxvitv2_nano_rw_256.sw_in1k', pretrained=True, num_classes=0) # eliminar clasificador nn.Linear
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, redimensionado)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # la salida es un tensor con forma (tamaño_del_lote, número_de_características)
# o equivalentemente, sin necesidad de establecer num_classes=0
output = model.forward_features(transforms(img).unsqueeze(0))
# la salida no agrupada, un tensor con forma (1, 768, 8, 8)
output = model.forward_head(output, pre_logits=True)
# la salida es un tensor con forma (1, número_de_características)
Funcionalidades
- Clasificación de imágenes
- Extracción de mapas de características
- Embebidos de imágenes
Casos de uso
- Clasificación de imágenes
- Extracción de mapas de características visuales
- Generación de embebidos de imágenes para otras tareas de aprendizaje automático