eva_large_patch14_196.in22k_ft_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes EVA. Preentrenado en ImageNet-22k con modelado de imágenes enmascaradas (usando EVA-CLIP como un profesor MIM) y afinado en ImageNet-1k por los autores del artículo. Este modelo tiene la finalidad de ser consistente con otros modelos entrenados en float32.

Como usar

Clasificación de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('eva_large_patch14_196.in22k_ft_in1k', pretrained=True)
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # ensanchar única imagen en un lote de 1
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Embeddings de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('eva_large_patch14_196.in22k_ft_in1k', pretrained=True, num_classes=0) # eliminar clasificador nn.Linear
model = model.eval()
# obtener transformaciones específicas del modelo (normalización, cambio de tamaño)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # la salida es un tensor de forma (batch_size, num_features)
# o de igual manera (sin necesidad de configurar num_classes=0)
output = model.forward_features(transforms(img).unsqueeze(0))
# la salida no está agrupada, es un tensor de forma (1, 197, 1024)
output = model.forward_head(output, pre_logits=True)
# la salida es un tensor de forma (1, num_features)

Funcionalidades

Tipo de modelo: Clasificación de imágenes / columna vertebral de características
Parámetros (M): 304.1
GMACs: 61.6
Activaciones (M): 63.5
Tamaño de imagen: 196 x 196

Casos de uso

Clasificación de imágenes para tareas visuales
Generación de embeddings de imágenes para tareas de visualización