YOLOS (pequeño tamaño, escalado rápido de modelo)

hustvl

Detección de objetos

El modelo YOLOS finamente ajustado en la detección de objetos COCO 2017 (118,000 imágenes anotadas). Fue presentado en el artículo 'You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection' por Fang et al. y lanzado por primera vez en este repositorio. YOLOS es un Transformer de Visión (ViT) entrenado usando la pérdida DETR. A pesar de su simplicidad, un modelo YOLOS de tamaño base puede lograr 42 AP en la validación de COCO 2017 (similar a DETR y a marcos más complejos como Faster R-CNN). El modelo se entrena utilizando una 'pérdida de emparejamiento bipartita': uno compara las clases predichas + cajas delimitadoras de cada una de las N = 100 consultas de objetos con las anotaciones de verdad del terreno, rellenadas hasta la misma longitud N. Algoritmo de emparejamiento húngaro se usa para crear una asignación óptima uno a uno entre cada una de las N consultas y cada una de las N anotaciones. Luego, se utilizan la entropía cruzada estándar (para las clases) y una combinación lineal de la pérdida L1 y la pérdida IoU generalizada (para las cajas delimitadoras) para optimizar los parámetros del modelo.

Como usar

Aquí está cómo usar este modelo:
from transformers import YolosFeatureExtractor, YolosForObjectDetection
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = YolosFeatureExtractor.from_pretrained('hustvl/yolos-small-dwr')
model = YolosForObjectDetection.from_pretrained('hustvl/yolos-small-dwr')

inputs = feature_extractor(images=image, return_tensors='pt')
outputs = model(**inputs)

# el modelo predice cajas delimitadoras y clases COCO correspondientes
logits = outputs.logits
bboxes = outputs.pred_boxes

Actualmente, tanto el extractor de características como el modelo soportan PyTorch.

Funcionalidades

Detectores de objetos con Transformers
Entrenado con PyTorch
Uso de pérdidas DETR
Algoritmo de emparejamiento húngaro
Modelo finamente ajustado en COCO 2017

Casos de uso

Detección de objetos en imágenes