论文题目:Fast-MVSNet: Sparse-to-Dense Multi-View Stereo with Learned Propagation and Gauss-Newton Refinement代码地址:在公众号「3D视觉工坊」,后台回复「Fast-MVSNet」,即可直接下载。摘要:以往基于深度学习的多视图立体匹配 (MVS) 方法几乎都是为了提高重建质量。除了重建质量,效率也是现实场景中重建的一个重要特征。为此,本文提出Fast-MVSNet,一种新的由稀疏到稠密、由粗糙到精细的框架,用于快速和准确的多视图深度估计。具体而言,在Fast-MVSNet中,我们首先构造一个稀疏的代价体来学习一个稀疏但高分辨率的深度图。然后我们利用小型卷积神经网络对局部区域内像素的深度依赖进行编码,以稠密化稀疏但高分辨率的深度图。最后提出简单且有效的高斯-牛顿层来进一步优化深度图。一方面,高分辨率的深度图、数据驱动的自适应传播方法和高斯-牛顿层保证了算法的有效性。另一方面,Fast-MVSNet中所有模块都是轻量级的,因此保证了算法的高效性。此外由于稀疏深度图的表示,我们方法也是memory-friendly的。实验结果表明Fast-MVSNet比Point-MVSNet快5倍,比R-MVSNet快14倍,同时在Tanks and Temples的DTU上取得了可比较甚至更好的结果。
表2. DTU数据集上关于重建质量、深度图分辨率、GPU显存占用和运行时间的对比结果2.2 Tanks and Temples数据集为了评测本文方法的泛化性能,作者在Tanks and Temples数据集中进行了测试。直接使用在DTU数据集上训练的模型,没有经过任何的fine-tuning。输入图像的分辨率为1920×1056。深度假设的平面数D = 96,实验使用MVSNet提供的相机参数。评测结果如表3所示,本文取得了与state-of-the-art方法接近较的结果,证明本方法具有较好的泛化性能。如图6所示,重建的点云是稠密且具有良好视觉效果的。
表 3. Tanks and Temples数据集上的评测结果。本文方法获得了与state-of-the-art方法可比较的实验结果。
图 6. Tanks and Temples数据集中intermediate set的重建结果。三、结论本文提出一个高效的MVS框架Fast-MVSNet,本框架利用了有稀疏到稠密、由粗糙到精细的策略。首先以较低的成本估计稀疏的高分辨率深度图。然后通过一个简单的传播模块将稀疏深度图传播为稠密深度图。最后利用可微的高斯-牛顿层来进一步优化深度图,来提高深度估计的准确性。在两个具有挑战性的数据集上 (DTU, Tanks and Temples) 的实验结果验证了本方法的有效性和高效性。备注:作者也是我们「3D视觉从入门到精通」特邀嘉宾:一个超干货的3D视觉学习社区本文仅做学术分享,如有侵权,请联系删文。下载1