facebook/deit-tiny-distilled-patch16-224

facebook

Clasificación de imagen

Distilled Transformer de Imagen Eficiente en Datos (modelo de tamaño pequeño) preentrenado y afinado en ImageNet-1k (1 millón de imágenes, 1,000 clases) a una resolución de 224x224. Este modelo fue introducido en el artículo 'Training data-efficient image transformers & distillation through attention' de Touvron et al. y liberado en este repositorio. Sin embargo, los pesos del modelo fueron convertidos del repositorio timm por Ross Wightman. Es un Transformer de Visión destilado (ViT) que utiliza un token de destilación, además del token de clase, para aprender de manera efectiva de un maestro (CNN) durante el preentrenamiento y la afinación. Las imágenes se presentan al modelo como una secuencia de parches de tamaño fijo (resolución 16x16), que se embeben linealmente.

Como usar

from transformers import AutoFeatureExtractor, DeiTForImageClassificationWithTeacher
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained('facebook/deit-tiny-distilled-patch16-224')
model = DeiTForImageClassificationWithTeacher.from_pretrained('facebook/deit-tiny-distilled-patch16-224')
inputs = feature_extractor(images=image, return_tensors='pt')
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print('Predicted class:', model.config.id2label[predicted_class_idx])

Actualmente, tanto el extractor de características como el modelo soportan PyTorch. El soporte para TensorFlow y JAX/FLAX llegará pronto.

Funcionalidades

Modelo Transformer de Visión destilado (ViT)
Preentrenado y afinado en ImageNet-1k
Resolución de entrada de 224x224
Utiliza token de destilación y token de clase
Aprende de un maestro (CNN) durante el preentrenamiento y la afinación
Soporte PyTorch
Soporte para TensorFlow y JAX/FLAX próximamente

Casos de uso

Clasificación de imágenes
Transferencia de aprendizaje
Afinación para tareas específicas
Detección de objetos
Visión por computadora