蒙版Dino：朝着基于统一的变压器框架进行对象检测和细分框架

论文标题

蒙版Dino：朝着基于统一的变压器框架进行对象检测和细分框架

Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation

论文作者

Li, Feng, Zhang, Hao, xu, Huaizhe, Liu, Shilong, Zhang, Lei, Ni, Lionel M., Shum, Heung-Yeung

论文摘要

在本文中，我们提出了统一的对象检测和分割框架蒙版Dino。 Mask Dino通过添加一个支持所有图像分割任务（实例，全磁带和语义）的蒙版预测分支，扩展了Dino（带有改进的DeNoising锚盒）。它利用了从Dino到DOT产品的查询嵌入，一个高分辨率像素嵌入图来预测一组二进制掩码。通过共享的架构和培训过程，Dino中的一些关键组成部分用于细分。蒙版恐龙是简单，高效且可扩展的，它可以从联合大规模检测和分割数据集中受益。我们的实验表明，在Resnet-50骨架和带有Swinl骨架的预训练的模型上，蒙版恐龙的表现明显优于所有现有的专业分割方法。值得注意的是，Mask Dino以实例分割（可可的54.5 AP），全景分割（可可的59.4 PQ）和语义分割（在ADE20K上为60.8 MIOU）在10亿个参数以下的参数中建立了最佳结果。代码可在\ url {https://github.com/ideacvr/maskdino}中获得。

In this paper we present Mask DINO, a unified object detection and segmentation framework. Mask DINO extends DINO (DETR with Improved Denoising Anchor Boxes) by adding a mask prediction branch which supports all image segmentation tasks (instance, panoptic, and semantic). It makes use of the query embeddings from DINO to dot-product a high-resolution pixel embedding map to predict a set of binary masks. Some key components in DINO are extended for segmentation through a shared architecture and training process. Mask DINO is simple, efficient, and scalable, and it can benefit from joint large-scale detection and segmentation datasets. Our experiments show that Mask DINO significantly outperforms all existing specialized segmentation methods, both on a ResNet-50 backbone and a pre-trained model with SwinL backbone. Notably, Mask DINO establishes the best results to date on instance segmentation (54.5 AP on COCO), panoptic segmentation (59.4 PQ on COCO), and semantic segmentation (60.8 mIoU on ADE20K) among models under one billion parameters. Code is available at \url{https://github.com/IDEACVR/MaskDINO}.

下载PDF全文

下载文献需遵守相关版权规定

论文标题