regnetx_320.tv2_in1k
timm
Clasificación de imagen
Un modelo de clasificación de imágenes RegNetX-32GF. Entrenado con ImageNet-1k por los colaboradores de torchvision. La implementación de RegNet en timm incluye una serie de mejoras no presentes en otras implementaciones, incluyendo profundidad estocástica, punto de control de gradiente, decaimiento del LR por nivel, salida configurable de paso (dilatación), capas de activación y normalización configurables, opción para un bloque de cuello de botella de pre-activación usado en la variante RegNetV, y las únicas definiciones conocidas del modelo RegNetZ con pesos preentrenados.
Como usar
Clasificación de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('regnetx_320.tv2_in1k', pretrained=True)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # agrupar una imagen individual en un lote de 1
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
Extracción de Mapas de Características
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('regnetx_320.tv2_in1k', pretrained=True, features_only=True)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # agrupar una imagen individual en un lote de 1
for o in output:
print(o.shape) # imprimir la forma de cada mapa de características en la salida
Embeddings de Imágenes
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('regnetx_320.tv2_in1k', pretrained=True, num_classes=0)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # la salida es un tensor con forma (batch_size, num_features)
# o equivalentemente (sin necesidad de establecer num_classes=0)
output = model.forward_features(transforms(img).unsqueeze(0))
# la salida sin agrupar es un tensor con forma (1, 2520, 7, 7)
output = model.forward_head(output, pre_logits=True)
# la salida es un tensor con forma (1, num_features)
Funcionalidades
- Profundidad estocástica
- Punto de control de gradiente
- Decaimiento del LR por nivel
- Salida configurable de paso (dilatación)
- Capas de activación y normalización configurables
- Opción para un bloque de cuello de botella de pre-activación usado en la variante RegNetV
- Únicas definiciones conocidas del modelo RegNetZ con pesos preentrenados
Casos de uso
- Clasificación de imágenes
- Extracción de mapas de características de imágenes
- Generación de embeddings de imágenes