极市沙龙回顾|CVPR2021-戴志港:UP-DETR,针对目标检测的无监督预训练Transformer

作者丨戴志港
编辑丨极市平台
上周六,由极市平台与中国图象图形学学会联合举办的第三期极市CV开发者沙龙活动圆满结束。
本次线下沙龙的主题为CVPR2021论文研讨会。我们邀请了三位CVPR2021接收论文作者,他们分别是来自香港科技大学李铎、来自悉尼大学顾津锦以及来自华南理工大学戴志港
三位嘉宾在本次线下沙龙中完成了三场非常优质的分享,不仅为大家分享了他们发布于CVPR2021论文的工作细节与成果,还为大家讲述了CVPR2021论文工作成果和心得。同时,还与现场的同学针对多个延伸问题进行了讨论。沙龙结束后,大家纷纷表示收获颇丰。
为了让更多开发者了解本次三位分享嘉宾的优秀工作,极市对本次分享的三个报告内容进行了整理。
先前回顾:
本文是对本次沙龙第三位嘉宾戴志港的报告整理,他为我们分享的是他发布今年CVPR2021的工作:
UP-DETR: Unsupervised Pre-training for Object Detection with Transformers (CVPR2021 Oral)
UP-DETR:针对目标检测的无监督预训练Transformer)
(PS:文末还有本次沙龙的现场图片~)

作者信息

论文:
https://arxiv.org/pdf/2011.09094
代码:
https://github.com/dddzg/up-detr
PPT和视频可在极市平台公众号后台回复“戴志港”获取。
论文摘要:利用transformer做目标检测,DETR通过直截了当的编解码器架构,取得了引人注目的性能。受自然语言处理中预训练transformer语言模型的影响,我们提出了一个适用于目标检测的无监督预训练任务。具体而言,给定图片,我们随机的从其中裁剪下多个小补丁块输入解码器,将原来输入编码器,预训练任务要求模型从原图中找到随机裁剪的补丁块。在这个过程中,我们发现并解决了两个关键的问题:多任务学习和多个补丁块的定位。
(1)为了权衡预训练过程中,检测器对于分类和定位特征的偏好,我们固定了预训练的CNN特征并添加了一个特征重构的分支。
(2)为了同时支持多补丁定位,我们提出了注意力掩码和洗牌的机制。实验中,无监督预训练可以显著提升DETR在下游VOC和COCO上目标检测的性能。

完整报告

  • 背景介绍
    • DETR:用于目标检测的Tranformer编码器-解码器架构
    • 无监督预训练CNN与在Tranformer预训练的结合
  • 无监督预训练的关键:设计pretext任务。由于现有的CNN与Transformer方法并不适用于目标检测任务

  • 本文的方法

  • 针对multi-task learning问题:

    • 固定预训练好的CNN权重,新增patch feature reconstruction分支
    • 使经过Transformer的特征能保持和经过CNN后的特征一致的分类判别性
  • 针对multi-query localization问题:
    • 随机设置M个query patch,并分配至100个embedding
    • 提出了一个放在解码器上的attention mask,以确保query之间框的预测独立
    • 提出了object query shuffle,以确保embedding和query patch的随机性
  • 实验
    • 在ImageNet上无监督预训练后,UP-DETR在VOC和COCO上都取得更快的收敛和更高的精度
  • 可视化:无监督定位

  • 可视化:目标检测

  • 可视化:全景分割

现场照片

# 极市线下沙龙

CVPR2021论文研讨会

2021 · 3月27日

深圳是今年极市线下沙龙的第一站,但其他城市的小伙伴不要着急,可以在下方评论区留言你期待的极市沙龙举办地点,我们的下一站说不定就会在那儿哦~

(0)

相关推荐