一种模块化的视觉语言导航和操作框架,用于在室内环境中完成长视距的写作任务
重磅干货,第一时间送达

小黑导读
论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。


摘要
在这篇论文中,作者提出了一个新的框架——MoViLan(模块化视觉和语言),用于在日常的室内家务任务中执行基于视觉的自然语言指令。尽管针对基于视觉和语言模式的定向导航任务提出了一些数据驱动的端到端学习框架,但最近基准数据集的表现表明,在开发长期视野的综合技术方面存在差距,具有不同对象类别的组合任务(包括操作和导航),具有不可逆状态变化的现实指令和视觉场景。作者提出了一种模块化的方法来处理组合导航和对象交互问题,而不需要严格对齐的视觉和语言训练数据(例如,以专家演示轨迹的形式)。这种方法显著地偏离了该领域传统的端到端技术,允许使用独立的远景和语言数据集进行更易于处理的培训过程。具体来说,作者提出了一种新颖的几何感知的室内环境映射技术,以及一种适用于家庭指令跟随的语言理解模型。在最近发布的基准数据集alfred上,作者证明了长期、组合任务的成功率显著提高。

在此背景下,作者做出了以下主要贡献:
作者提出了一种新的模块化方法来处理组合导航和对象交互问题,这些问题涉及到明显较长的执行轨迹和目标目标的组合性以及与现实世界基于语言的交互相关的模糊性。这种模块化的方法使得在弱对齐甚至独立收集的视觉和语言数据下的训练更加可行。
作者提出了一种新的基于图卷积网络的映射方案,以近似观测物体和智能体周围的可导航空间的几何形状,从而改善了导航。
作者提出了一种自然语言理解模型,用于为视觉语言导航的自然语言指令中的单词分配上下文意义。这可以通过利用预先训练过的架构(如BERT)来获得,在作者提取的用于联合意图检测和缝隙填充的小语料库上使用迁移学习。
最后,作者在新的基准数据集ALFRED上展示了不可见的长期、具有不可逆状态变化的组合任务的最先进的成功率(接近40%)。

框架结构

跨模态接地框架改编自LingUNet
Res(i-j)表示ResNet从第i层数到第j层数的预训练层数。softmax的输出与基于UNet的类分割图的输出相交,得到最终的图。
如figure5所示,作者通过文本指令通过语言理解模块分配槽标签句子中的每个单词根据本文提出的标签。这句话,分配标签转换为嵌入向量通过可学的嵌入层。每个插槽标签得到的嵌入被重塑成一个内核,并堆叠在一起作为一组滤波器。这些滤波器堆栈(K1, K2, K3, K4)中的每一个都被称为槽核,并通过前向通过预先训练的ResNet[13]层获得的特征表示进行卷积。输入图像前向通过预训练的ResNet layerres (i−j),其中i、j为层数,i−j表示由i到j层构成的网络。上采样通过卷积过滤器H1 H4,它们与槽内核获得G1 G4卷积。应用Softmax操作后的最终特征图,给出了一个概率分布,该概率分布突出了有高概率成为文本指令中提到的对象的区域。这个预测进一步结合实例分割得到准确的对象。

实验结果

由代理捕获的全景图像(左上),由代理捕获的深度法线(右上),以及显示投影地图的底部行。目标对象“Shelf”在红色圆圈内被选中。底部最左行显示近似的投影地图。在这里,地图中的每个网格位置都是4个向量,代表该位置成为目标(标记为“*”)、可航行空间(标记为“-”)、障碍(标记为“I”)和未知(因为障碍物,标记为“?”)的概率。F或简洁表示,只有每个网格节点上的argmax值用对应的标记来表示,即如果一个位置有星号,则该位置成为目标对象的概率最高。如果出于规划的目的,未知被视为障碍。作者提出的图卷积滤波算法的输入近似投影(下左行)给出了预测的地图(下中行)。Agent以自我为中心的北方用蓝色箭头表示,自我中心(自我感知的位置)用字母“A”表示。

由代理捕获的全景图像(左上),由代理捕获的深度法线(右上),以及显示投影地图的底部行。红色圆圈内选择目标物体“梳妆台”。底部最左行显示近似的投影地图。在这里,地图中的每个网格位置都是4个向量,代表该位置成为目标(标记为“*”)、可航行空间(标记为“-”)、障碍(标记为“I”)和未知(因为障碍物,标记为“?”)的概率。F或简洁表示,只有每个网格节点上的argmax值用对应的标记来表示,即如果一个位置有星号,则该位置成为目标对象的概率最高。如果出于规划的目的,未知被视为障碍。作者提出的图卷积滤波算法的输入近似投影(下左行)给出了预测的地图(下中行)。Agent以自我为中心的北方用蓝色箭头表示,自我中心(自我感知的位置)用字母“A”表示。

结论
与这些q-to-seqmodel相比,你的模块化框架显示出显著改进的一个主要原因可以归因于解纠缠的方式,即提取并组合每个模态的重要特征以获得高级行为。许多端到端框架,即使有复杂的注意力机制,也很难学会这些互不纠缠的表现形式。这主要是因为该问题固有的多对一特性——一种语言描述和一系列视觉观察可以共同导致多个长序列的动作输出。因此,一种编码人类级别的专家语义知识和对词级别语义的广义理解的模块化方法可以为训练智能体以更像人类的方式理解任务铺平道路,从而提高成功率。
论文链接:https://arxiv.org/pdf/2101.07891.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
- END -
