APS:大型多模态室内摄像机定位系统

重磅干货,第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要

在没有gps信号的封闭区域内进行导航是一项极具挑战性的任务。为了解决这一问题,近年来基于图像的方法引起了许多研究者的关注。这些方法要么提取特征(如使用SIFT,或SOSNet),并将描述性的特征映射到相机的位置和旋转信息,要么部署一个端到端系统,直接从RGB图像中估计这些信息,类似于PoseNet。前一种方法在测试过程中计算量大,后一种方法对环境变化和物体运动缺乏准确性和鲁棒性。然而,端到端系统在测试和推断过程中非常快,并且非常适合实际应用程序,尽管它们的训练阶段可能比以前的要长。摘要小说多end-toend提出了大规模的室内定位系统,即APS(α定位系统),集Pix2Pix GAN网络重建输入的点云对查询图像,与深CNN网络以强劲估计相机的位置和旋转信息。在这种集成中,现有的数据集存在室内环境下成对RGB/点云图像的缺点。因此,作者创建了一个新的数据集来处理这种情况。通过实施提出的APS系统,作者可以实现高精度的相机定位,精度水平低于一厘米。

论文创新点

本文在[6,7]的基础上,提出了一种端到端深度神经网络系统,该系统一方面包含特定场景的RGB数据,另一方面包含与之对应的点云数据;然后集成他们,并提供相机位置和四元数估计与高精度。此外,与icp -net相比,该系统对图像部分遮挡、光照变化等环境变化具有鲁棒性。

框架结构

整个提出的APS工艺流程图

基于EfficientNet-B0 CNN的场景分类器。输入:RGB数据;输出:场景数量有关。

一种新的多模态回归因子CNNs。左侧路径仅在GAN输出获得的pointcloud数据上进行训练;只对RGB数据正确路径。

实验结果

通过插入掩模和在左上角的参考图像上完全滑动来增加数据。

使用对象插入来创建测试样本,以遮挡和屏蔽视图模式,以测试模型对屏蔽效果的鲁棒性。(上)场景的大视图,(下)从左到右:由于物体遮挡不同的相机视图和掩蔽模式。

结论

本文提出了一种端到端系统来解决室内定位问题。这项工作改进了之前提出的系统,即icp -net和激光雷达icp -net。由于背景中存在动态对象,ICPS-net具有较强的抗环境变化能力。激光雷达icp -net具有数据生成简单、抗输入变化能力强等优点。然而,它缺乏精确性。另一个创新是使用Pix2Pix GAN生成点云数据,这可以通过生成分布接近数据集的图像来帮助数据增强。虽然新的数据可以防止模型过拟合,但当输入的RGB图像被遮挡和遮挡时,它有助于提供鲁棒的点云数据。第三种新颖的是多模态CNN,它融合了两个独立的CNN模型,在回归精度和收敛能力方面都优于它们。笛卡尔坐标和四元数估计,相对于SOTA有了显著的改进。该模型的新颖之处简化了系统在各种应用中的利用,如大型建筑、商场、隧道和AR/VR应用。

论文链接:https://arxiv.org/pdf/2102.04139.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

- END -

(0)

相关推荐