YOLOS (de tamaño pequeño) ajustado en el conjunto de datos de globos de Matterport

zoheb

Detección de objetos

YOLOS es un Transformer de Visión (ViT) entrenado usando la pérdida DETR. A pesar de su simplicidad, un modelo YOLOS de tamaño base es capaz de alcanzar 42 AP en la validación de COCO 2017 (similar a DETR y a marcos más complejos como Faster R-CNN). El modelo YOLOS ajustado en la detección de objetos de COCO 2017 (118k imágenes anotadas). Fue presentado en el artículo 'You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection' por Fang et al. y fue lanzado por primera vez en este repositorio.

Como usar

markdown ```python
La descripción del uso del modelo no está disponible en el HTML proporcionado. Los usuarios pueden consultar el repositorio de Hugging Face para obtener ejemplos detallados y cuadernos de código:
Detailed Notebook:
https://huggingface.co/zoheb/yolos-small-balloon

Funcionalidades

Pérdida de emparejamiento bipartito: se compara las clases predichas y las cajas delimitadoras de cada una de las N = 100 consultas de objetos con las anotaciones de la verdad de terreno, rellenadas hasta la misma longitud N.
Algoritmo de emparejamiento Húngaro para crear un mapeo óptimo uno a uno entre cada una de las N consultas y cada una de las N anotaciones.
Uso de entropía cruzada estándar para las clases y una combinación lineal de la pérdida L1 y la pérdida IoU generalizada para optimizar los parámetros del modelo.
Soporte tanto para el extractor de características como para el modelo en PyTorch.

Casos de uso

Detección de objetos en imágenes utilizando un Transformer de Visión (ViT).
Aplicación en conjuntos de datos grandes como COCO 2017 para detección de objetos.
Fine-tuning en conjuntos de datos específicos como el conjunto de datos de detección de globos de Matterport.