regnetx_160.tv2_in1k
timm
Clasificación de imagen
Un modelo de clasificación de imágenes RegNetX-16GF. Pre-entrenado en ImageNet-1k por los colaboradores de torchvision. La implementación de timm RegNet incluye varias mejoras no presentes en otras implementaciones, tales como profundidad estocástica, punto de control de gradiente, decaimiento de la tasa de aprendizaje por capa, tamaño de salida configurable (dilatación), capas de activación y normalización configurables, opción para un bloque cuello de botella de pre-activación usado en la variante RegNetV, y las únicas definiciones de modelo RegNetZ con pesos pre-entrenados.
Como usar
Clasificación de Imagen
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model('regnetx_160.tv2_in1k', pretrained=True)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # añadir imagen sola a lote de 1
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
Extracción de Mapa de Características
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'regnetx_160.tv2_in1k',
pretrained=True,
features_only=True,
)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # añadir imagen sola a lote de 1
for o in output:
# imprimir forma de cada mapa de características en la salida
print(o.shape)
Embeddings de Imagen
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'regnetx_160.tv2_in1k',
pretrained=True,
num_classes=0, # eliminar clasificador nn.Linear
)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # la salida es un tensor con forma de (batch_size, num_features)
# o de manera equivalente (sin necesidad de establecer num_classes=0)
output = model.forward_features(transforms(img).unsqueeze(0))
# la salida es no agrupada, un tensor con forma de (1, 2048, 7, 7)
output = model.forward_head(output, pre_logits=True)
# la salida es un tensor con forma de (1, num_features)
Funcionalidades
- Profundidad estocástica
- Punto de control de gradiente
- Decaimiento de la tasa de aprendizaje por capa
- Tamaño de salida configurable (dilatación)
- Capas de activación y normalización configurables
- Opción para un bloque cuello de botella de pre-activación usado en la variante RegNetV
- Únicas definiciones de modelo RegNetZ con pesos pre-entrenados
Casos de uso
- Clasificación de imágenes
- Extracción de mapas de características
- Embeddings de imágenes