nateraw/vit-base-patch16-224-cifar10

nateraw

Clasificación de imagen

El Vision Transformer (ViT) es un modelo de codificador transformer (similar a BERT) preentrenado en una gran colección de imágenes de manera supervisada, concretamente en ImageNet-21k, a una resolución de 224x224 píxeles. Las imágenes se presentan al modelo como una secuencia de parches de tamaño fijo (resolución 16x16), que se incrustan linealmente. También se añade un token [CLS] al principio de una secuencia para usarlo en tareas de clasificación. Además, se añaden posiciones absolutas incrustadas antes de alimentar la secuencia a las capas del codificador Transformer. Cabe destacar que este modelo no proporciona ninguna cabeza afinada, ya que fueron eliminadas por los investigadores de Google. No obstante, el modelo incluye el pooler preentrenado, que puede ser utilizado para tareas posteriores (como clasificación de imágenes). Al preentrenar el modelo, aprende una representación interna de las imágenes que luego puede usarse para extraer características útiles para tareas posteriores: si tienes un conjunto de datos de imágenes etiquetadas, por ejemplo, puedes entrenar un clasificador estándar colocando una capa lineal encima del codificador preentrenado. Normalmente se coloca una capa lineal sobre el token [CLS], ya que el último estado oculto de este token puede verse como una representación de una imagen completa.

Como usar

from transformers import ViTFeatureExtractor, ViTForImageClassification
from PIL import Image
import requests

url = 'https://www.cs.toronto.edu/~kriz/cifar-10-sample/dog10.png'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = ViTFeatureExtractor.from_pretrained('nateraw/vit-base-patch16-224-cifar10')
model = ViTForImageClassification.from_pretrained('nateraw/vit-base-patch16-224-cifar10')
inputs = feature_extractor(images=image, return_tensors='pt')
outputs = model(**inputs)
preds = outputs.logits.argmax(dim=1)

classes = [
    'airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck'
]
classes[preds[0]]

Funcionalidades

Clasificación de imágenes
Transformers
PyTorch
cifar10
vit
visión
Puntos finales de inferencia

Casos de uso

Clasificación de imágenes en CIFAR10
Extracción de características de imágenes para tareas posteriores
Entrenamiento de clasificadores estándar en imágenes etiquetadas