SegFormer (encoder tamaño b2) preentrenado
nvidia
Clasificación de imagen
SegFormer consiste en un codificador jerárquico de Transformers y una cabeza decodificadora ligera de MLP para lograr grandes resultados en los benchmarks de segmentación semántica, como ADE20K y Cityscapes. El Transformer jerárquico primero se preentrena en ImageNet-1k, después se añade una cabeza decodificadora y se ajusta en su totalidad en un conjunto de datos downstream. Este repositorio solo contiene el Transformer jerárquico preentrenado, por lo tanto, puede ser usado para propósitos de ajuste fino.
Como usar
from transformers import SegformerFeatureExtractor, SegformerForImageClassification
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = SegformerFeatureExtractor.from_pretrained("nvidia/mit-b2")
model = SegformerForImageClassification.from_pretrained("nvidia/mit-b2")
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])
Funcionalidades
- Codificador jerárquico de Transformers
- Cabeza decodificadora ligera de MLP
- Grandes resultados en benchmarks de segmentación semántica
- Preentrenado en ImageNet-1k
Casos de uso
- Ajuste fino para segmentación semántica
- Clasificación de imágenes en el conjunto de datos ImageNet