CVPR2021 Oral《Seeing Out of the Box》北科大&中山大学&微软提出端到端视觉语言表征预训练方法

论文链接:https://openaccess.thecvf.com/content/CVPR2021/html/Huang_Seeing_Out_of_the_Box_End-to-End_Pre-Training_for_Vision-Language_Representation_CVPR_2021_paper.html
项目链接:https://github.com/researchmm/soho

01
首先,region特征关注的是框内的对象,而忽略了框外的上下文信息 ,这些上下文信息对于理解和推理关系非常重要的。(如下图所示,我们可以很容易地在图像中发现“男人”、“女人”和“船”。然而,如果没有这些框外的上下文信息,模型将误解这种关系为“人划船”,导致模型在文本检索或VQA任务中给出错误的答案。)

第二,对图像的视觉信息理解将会被局限在目标检测器预定义的区域类别 。
第三,大部分region特征是通过检测模型提取的,存在质量低、噪声大、过采样 等问题,依赖于大规模的box标注数据 。
02
方法

2.1. Trainable Visual Encoder

2.2. Visual Dictionary
Visual Dictionary Embedding


Momentum Learning for Visual Dictionary Update

Gradient Back Propagation

2.3. Pre-training Pipeline
Masked Language Modeling

Masked Visual Modeling

Image-Text Matching


2.4. Pre-training Datasets


03
实验
3.1. 下游任务和结果
3.1.1. Task I: Image-Text Retrieval


3.1.2. Task II: Visual Question Answering

3.1.3. Task III: Visual Reasoning

3.1.4. Task IV: Visual Entailment

3.2. Ablation Study

3.3. Visualization of Visual Dictionary

04

备注:CV
计算机视觉交流群
视觉表征、目标检测、人体姿态估计、手势识别等更多新鲜资讯,若已为CV君其他账号好友请直接私信。
在看,让更多人看到

赞 (0)
