DSC-PoseNet:通过双尺度一致性学习6DoF物体姿态估计
点击上方“深度学习爱好者”,选择加"星标"或“置顶”
重磅干货,第一时间送达

小黑导读
论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。


摘要
与二维物体边界框标注相比,人类很难对三维物体姿态进行标注,尤其是在没有场景深度图像的情况下。本文研究了在只给出RGB图像和2D对象标注的情况下,能否有效地估计目标姿态。为此,作者提出了一种两步姿态估计框架,从2D对象边界框获得6DoF对象姿态。在第一步,框架学习以弱监督的方式从真实和合成数据中分割目标,分割掩模将作为姿态估计的先决条件。在第二步中,作者设计了一个双尺度姿态估计网络,即DSCPoseNet,利用差分渲染器预测目标姿态。具体来说,作者的DSC-PoseNet首先通过比较分割掩码和渲染的可见对象掩码来预测原始图像尺度下的对象姿态。然后,作者调整目标区域的大小到一个固定的比例,再次估计姿态。在这种方式下,作者消除了大规模的变化,并专注于旋转估计,从而促进姿态估计。此外,作者利用初始姿态估计生成伪ground-truth,以自我监督的方式训练作者的DSCPoseNet。这两种尺度下的估计结果被集成为作者最终的姿态估计。在广泛使用的基准上进行的大量实验表明,作者的方法在很大程度上优于在合成数据上训练的最新模型,甚至与几种完全监督的方法不相上下。

针对DSC-PoseNet输出的两个尺度姿态估计结果,作者集成了两个尺度的结果,以提高估计的鲁棒性。在三个广泛使用的数据集上的大量实验表明,与目前最先进的基于RGB图像的方法相比,作者的方法获得了更好的性能。
总的来说,作者的贡献总结如下:
作者提出了一种基于弱监督和自我监督学习的姿态估计框架,利用容易获得的二维边界框注释从单一RGB图像中估计目标姿态。
提出了一种自监督双尺度姿态估计网络DSC-PoseNet。DSCPoseNet通过构建具有可区分渲染器的跨尺度自我监督,显著地缓解了合成数据和真实数据之间的领域差距。
据作者所知,在训练和测试阶段,作者的工作是第一次尝试在不使用3D姿态标注和深度图像的情况下,从RGB图像估算6DoF物体姿态。对比结果表明,DSC-PoseNet优于基于RGB的合成数据训练的竞争对手。

框架结构

DSC-PoseNet的训练管道概述
在第一步,作者利用弱监督分割方法生成伪掩码的真实图像,只有边界框(BBox)注释。在第二步中,通过构建双尺度自我监督信号,利用可微呈现器,开发了自监督关键点学习,用于训练DSC-PoseNet。

可微二维关键点坐标预测
作者预测了目标的掩模、每个像素点的关键点偏移量和注意力图。最后的关键点预测是通过加权平均前景中的逐像素预测来计算的。

实验结果

与最先进的LINEMOD数据集比较
作者给出了ADD(-S)的平均召回率(%)。除作者和DTPE之外的结果是从[41]复制的。作者的+:作者用OpenGL渲染的额外10K合成数据训练的结果。

在LINEMOD上显示给定的边界框(红色框)和生成的伪标签(绿色区域)

对HomebrewedDB数据集的定性结果

LINEMOD数据集的定性结果
绿色:地面真实姿势。红色:非归一化尺度预测。黄色:归一化尺度预测。蓝色:通过平均在两个尺度上预测的关键点来综合预测。

结论
本文提出了一种新的两步目标姿态估计方法,显著提高了未经真实姿态标注训练的最先进的RGB模型的性能。作者提出的位姿估计网络DSC-PoseNet在训练中只使用易于获得的2D边界框注释。由于作者可见的轮廓对准和双尺度一致性自我监督损失,DSC-PoseNet可以在没有ground-truth监督的情况下训练来估计目标姿态,也提供了一种解决方案,在3D姿态标签不可用的情况下使用真实图像。此外,虽然作者的网络是为没有标记的真实图像设计的,但它也可以用真实姿态标注来训练。因此,作者的DSC-PoseNet可以适应不同的场景,使其更加有利。
论文链接:https://arxiv.org/pdf/2104.03658.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
