SegFormer (encoder tamaño b2) preentrenado

nvidia
Clasificación de imagen

SegFormer consiste en un codificador jerárquico de Transformers y una cabeza decodificadora ligera de MLP para lograr grandes resultados en los benchmarks de segmentación semántica, como ADE20K y Cityscapes. El Transformer jerárquico primero se preentrena en ImageNet-1k, después se añade una cabeza decodificadora y se ajusta en su totalidad en un conjunto de datos downstream. Este repositorio solo contiene el Transformer jerárquico preentrenado, por lo tanto, puede ser usado para propósitos de ajuste fino.

Como usar

from transformers import SegformerFeatureExtractor, SegformerForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = SegformerFeatureExtractor.from_pretrained("nvidia/mit-b2")
model = SegformerForImageClassification.from_pretrained("nvidia/mit-b2")

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])

Funcionalidades

Codificador jerárquico de Transformers
Cabeza decodificadora ligera de MLP
Grandes resultados en benchmarks de segmentación semántica
Preentrenado en ImageNet-1k

Casos de uso

Ajuste fino para segmentación semántica
Clasificación de imágenes en el conjunto de datos ImageNet