nvidia/mit-b0
nvidia
Clasificación de imagen
SegFormer consiste en un codificador Transformer jerárquico y una cabeza de decodificación completamente MLP para lograr resultados sobresalientes en puntos de referencia de segmentación semántica como ADE20K y Cityscapes. El Transformer jerárquico se preentrena primero en ImageNet-1k, después de lo cual se agrega una cabeza de decodificación y se ajusta en conjunto en un conjunto de datos descendente. Este repositorio solo contiene el Transformer jerárquico preentrenado, por lo tanto puede ser utilizado para propósitos de ajuste fino.
Como usar
Aquí se muestra cómo utilizar este modelo para clasificar una imagen del conjunto de datos COCO 2017 en una de las 1,000 clases de ImageNet:
from transformers import SegformerImageProcessor, SegformerForImageClassification
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
image_processor = SegformerImageProcessor.from_pretrained("nvidia/mit-b0")
model = SegformerForImageClassification.from_pretrained("nvidia/mit-b0")
inputs = image_processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# El modelo predice una de las 1000 clases de ImageNet
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])
Funcionalidades
- Codificador Transformer jerárquico
- Cabeza de decodificación completamente MLP
- Preentrenado en ImageNet-1k
- Capacidad de ajuste fino
Casos de uso
- Segmentación semántica
- Clasificación de imágenes
- Integración en sistemas de visión por computadora