YOLOS (de tamaño pequeño) ajustado en el conjunto de datos de globos de Matterport
zoheb
Detección de objetos
YOLOS es un Transformer de Visión (ViT) entrenado usando la pérdida DETR. A pesar de su simplicidad, un modelo YOLOS de tamaño base es capaz de alcanzar 42 AP en la validación de COCO 2017 (similar a DETR y a marcos más complejos como Faster R-CNN). El modelo YOLOS ajustado en la detección de objetos de COCO 2017 (118k imágenes anotadas). Fue presentado en el artículo 'You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection' por Fang et al. y fue lanzado por primera vez en este repositorio.
Como usar
markdown ```python
La descripción del uso del modelo no está disponible en el HTML proporcionado. Los usuarios pueden consultar el repositorio de Hugging Face para obtener ejemplos detallados y cuadernos de código:
Detailed Notebook:
https://huggingface.co/zoheb/yolos-small-balloon
Funcionalidades
- Pérdida de emparejamiento bipartito: se compara las clases predichas y las cajas delimitadoras de cada una de las N = 100 consultas de objetos con las anotaciones de la verdad de terreno, rellenadas hasta la misma longitud N.
- Algoritmo de emparejamiento Húngaro para crear un mapeo óptimo uno a uno entre cada una de las N consultas y cada una de las N anotaciones.
- Uso de entropía cruzada estándar para las clases y una combinación lineal de la pérdida L1 y la pérdida IoU generalizada para optimizar los parámetros del modelo.
- Soporte tanto para el extractor de características como para el modelo en PyTorch.
Casos de uso
- Detección de objetos en imágenes utilizando un Transformer de Visión (ViT).
- Aplicación en conjuntos de datos grandes como COCO 2017 para detección de objetos.
- Fine-tuning en conjuntos de datos específicos como el conjunto de datos de detección de globos de Matterport.