timm/eva02_base_patch14_448.mim_in22k_ft_in22k_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes EVA02. Preentrenado en ImageNet-22k con modelado de imágenes enmascaradas (utilizando EVA-CLIP como un maestro MIM) y ajustado finamente en ImageNet-22k y luego en ImageNet-1k por los autores del artículo. Los modelos EVA-02 son transformadores de visión con media de pooling, SwiGLU, Embedding de Posición Rotary (ROPE) y LN extra en MLP (para Base y Large). NOTA: los puntos de control de timm son float32 para consistencia con otros modelos. Los puntos de control originales son float16 o bfloat16 en algunos casos; ver originales si se prefiere.

Como usar

from urllib.request import urlopen
from PIL import Image
import timm

# Clasificación de imágenes
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('eva02_base_patch14_448.mim_in22k_ft_in22k_in1k', pretrained=True)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0)) # transformar imagen única en lote de 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

# Embeddings de imágenes
from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('eva02_base_patch14_448.mim_in22k_ft_in22k_in1k', pretrained=True, num_classes=0)
model = model.eval()

# obtener transformaciones específicas del modelo (normalización, redimensionamiento)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))

# o equivalentemente (sin necesidad de establecer num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
output = model.forward_head(output, pre_logits=True)

Funcionalidades

Clasificación de imágenes
Embeddings de imágenes
Transformadores de visión con media de pooling
SwiGLU
Embeddings de Posición Rotary (ROPE)
LN extra en MLP

Casos de uso

Clasificación de imágenes
Generación de embeddings de imágenes