eva_giant_patch14_224.clip_ft_in1k

timm
Clasificación de imagen

Un modelo de clasificación de imágenes EVA-CLIP. Preentrenado en LAION-400M con CLIP y ajustado en ImageNet-1k por los autores del artículo. EVA-CLIP utiliza torres de imágenes preentrenadas con MIM y torres de texto preentrenadas, parche FLIP dropout, y diferentes optimizadores e hiperparámetros para acelerar el entrenamiento. NOTA: los puntos de control de timm están en float32 para ser consistentes con otros modelos. Los puntos de control originales son float16 o bfloat16 en algunos casos, consulte los originales si lo prefiere.

Como usar

Clasificación de imágenes

from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('eva_giant_patch14_224.clip_ft_in1k', pretrained=True)
model = model.eval()
# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # unsqueeze single image into batch of 1
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Embeddings de Imágenes

from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
model = timm.create_model('eva_giant_patch14_224.clip_ft_in1k', pretrained=True, num_classes=0) # remove classifier nn.Linear
model = model.eval()
# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # output is a (batch_size, num_features) shaped tensor
# or equivalently (without needing to set num_classes=0)
output = model.forward_features(transforms(img).unsqueeze(0))
# output is unpooled, a (1, 257, 1408) shaped tensor
output = model.forward_head(output, pre_logits=True)
# output is a (1, num_features) shaped tensor

Funcionalidades

Clasificación de imágenes
Embeddings de imágenes
Preentrenado en LAION-400M con CLIP
Ajustado en ImageNet-1k
Utiliza torres de imágenes y texto preentrenadas
Parche FLIP dropout
Diferentes optimizadores e hiperparámetros para acelerar el entrenamiento

Casos de uso

Clasificación de imágenes
Generación de embeddings de imágenes