facebook/deit-tiny-distilled-patch16-224
Distilled Transformer de Imagen Eficiente en Datos (modelo de tamaño pequeño) preentrenado y afinado en ImageNet-1k (1 millón de imágenes, 1,000 clases) a una resolución de 224x224. Este modelo fue introducido en el artículo 'Training data-efficient image transformers & distillation through attention' de Touvron et al. y liberado en este repositorio. Sin embargo, los pesos del modelo fueron convertidos del repositorio timm por Ross Wightman. Es un Transformer de Visión destilado (ViT) que utiliza un token de destilación, además del token de clase, para aprender de manera efectiva de un maestro (CNN) durante el preentrenamiento y la afinación. Las imágenes se presentan al modelo como una secuencia de parches de tamaño fijo (resolución 16x16), que se embeben linealmente.
Como usar
from transformers import AutoFeatureExtractor, DeiTForImageClassificationWithTeacher
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained('facebook/deit-tiny-distilled-patch16-224')
model = DeiTForImageClassificationWithTeacher.from_pretrained('facebook/deit-tiny-distilled-patch16-224')
inputs = feature_extractor(images=image, return_tensors='pt')
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print('Predicted class:', model.config.id2label[predicted_class_idx])
Actualmente, tanto el extractor de características como el modelo soportan PyTorch. El soporte para TensorFlow y JAX/FLAX llegará pronto.
Funcionalidades
- Modelo Transformer de Visión destilado (ViT)
- Preentrenado y afinado en ImageNet-1k
- Resolución de entrada de 224x224
- Utiliza token de destilación y token de clase
- Aprende de un maestro (CNN) durante el preentrenamiento y la afinación
- Soporte PyTorch
- Soporte para TensorFlow y JAX/FLAX próximamente
Casos de uso
- Clasificación de imágenes
- Transferencia de aprendizaje
- Afinación para tareas específicas
- Detección de objetos
- Visión por computadora