SegFormer (b3-sized) encoder pre-trained-only

nvidia

Clasificación de imagen

SegFormer consiste en un codificador jerárquico Transformer y un cabezal de decodificación liviano completamente MLP para lograr excelentes resultados en benchmarks de segmentación semántica como ADE20K y Cityscapes. El Transformer jerárquico se pre-entrena primero en ImageNet-1k, después de lo cual se añade un cabezal de decodificación y se ajustan juntos en un conjunto de datos descendente. Este repositorio solo contiene el Transformer jerárquico pre-entrenado, por lo que se puede usar para fines de ajuste fino. SegFormer encoder ajustado en Imagenet-1k. Fue introducido en el artículo SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers por Xie y otros, y lanzado por primera vez en este repositorio. Descargo de responsabilidad: El equipo que lanzó SegFormer no escribió una tarjeta de modelo para este modelo, por lo que esta tarjeta de modelo ha sido escrita por el equipo de Hugging Face.

Como usar

Aquí hay cómo usar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import SegformerFeatureExtractor, SegformerForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = SegformerFeatureExtractor.from_pretrained("nvidia/mit-b3")
model = SegformerForImageClassification.from_pretrained("nvidia/mit-b3")

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# el modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])

Para más ejemplos de código, consulte la documentación.

Funcionalidades

Codificador Transformer jerárquico pre-entrenado
Cabezal de decodificación completamente MLP
Optimizado para segmentación semántica
Capacidad de ajuste fino

Casos de uso

Ajuste fino para segmentación semántica
Clasificación de imágenes en clases de ImageNet