基于深度可分离卷积和注意力感知机制的多视图立体三维重建算法

来源：极速体育nba在线直播吧发布时间：2024-01-23 09:31:01

，其特点是利用3D深度可分离卷积和多维深度-空间注意力感知机制来实现代价体正则化，从而使得模型能够估计准确的深度图，进而实现更准确且高效的。本方法在内存占用和运行时间方面均优于主流的方法，同时本文在目前公用的DTU和TnT数据集上进行了实验，根据结果得出本方法达到或超越了现有的state-of-the-art方法，并具有潜力在其他领域推广使用。本文相关科研成果已于2023年5月被CAIS(Complex & Intelligent Systems)接收。

多视图立体被大范围的应用于增强现实和三维重建。MVS的目标是通过建立密集的对应关系，利用一系列相机校准的二维图像重建三维场景，这可以被表述为一个优化问题。因此，早期马尔科夫离散优化和空间补丁扩散等优化方法被用来解决这一个问题。然而，上述方法在具有弱质地或非朗伯斯表面的场景中可能导致不完整的表面。

随着近年来深度学习的发展，通过稠密重建算法结合深度学习的方法来解决该优化问题成为了主流的研究方向。由于代价体的准确性直接决定了最终重建点云的质量，所以代价体正则化网络的改进成为了这些方法的主要研究内容。目前绝大多数方法均基于3D CNN构建UNet来实现代价体的正则化，尽管它们中有一些高效的策略被提出，但是这些方法都不可避免地使用了3D CNN来对参与代价体的正则化，从而导致模型的计算开销十分巨大，这对于低资源的设备是十分不友好的。

尽管后面一些基于RNN实现高效策略的方法被提出，但是这些方法在代价体正则化的过程中由于不能像3D UNet那样在代价体上聚合足够的上下文信息~(存在遗忘问题)，从而导致其性能受到一定的限制。因此，如何在保持性能的前提下大幅减少计算量是本文的主要研究问题。

DSC-MVSNet的架构，如图二所示。在第一部分，我们使用一个informative feature extraction network来提取特征以建立粗糙的代价体。在第二部分，我们使用我们的DSC-Attention 3D UNet来正则化代价体。在第三部分中，我们使用一个Feature Transfer Module对低分辨的深度图进行上采样。在第四部分，我们使用GaussNewton层来进一步细化深度图。左下部分是我们的三维深度可分离卷积的示意图。右下部分是我们的深度-空间注意力感知模块的示意图。

(2) 代价体正则化：我们提出了一个DSC-Attention 3D UNet来规范粗略的成本体积，它是由参考特征和其他源特征。

(3) 深度图上采样：我们提出了一个Feature Transfer Module，它将低分辨率的深度图利用图像特征上采样得到高分辨率深度图

(4) 深度图细化：利用GaussNewton层来通过利用输入图像和高分辨率深度图来进一步精细化深度图，并将精细化的深度图用于三维点云重建。

受2D深度可分离卷积机制的启发，我们试图通过3D 深度可分离卷积来代替普通的3D CNN，从而减少代价体正则化的计算。由于MVS本身是一个三维任务，因此我们希望结合代价体本身的特性来设计了3D卷积的划分策略。由于代价体本身是通过匹配不同深度的不同视图中不同空间位置的特征点的相似性来构建的。因此，我们考虑将3D CNN分为3D纵深卷积（纵深是深度维度，可以对深度维度的代价信息进行代价聚合）和3D点状卷积（点状是空间维度，对空间维度的代价信息进行代价聚合。

3D纵深卷积：3D纵深卷积是在每个通道上独立进行的，以获得与通道独立的中间特征图，公式定义如下：

3D点状卷积：3D点状卷积作用于这些与通道无关的特征图，以汇总通道方面的信息，公式定义如下：

这两个卷积是串行执行的，从而形成一个完整的3D深度可分离卷积。其数学公式定义如下：

如下图三所示，在正则化过程中，我们用青色表示体素的感受野。水平是深度维度，垂直是通道维度。H和W分别表示高度和宽度。

此外，我们还将我们的3D-DSC正则化方案与其他主流正则化方案进行理论上的比较，以证明我们方案的有效性。我们在上图中展示了四种正则化方案：

（a）空间正则化（SR）是一种代价聚集方法，它过滤不同深度的代价信息。然而，由于感受野较小，SR的正则化结果受到很大影响；

（b）3D CNN正则化是一种基于CNN的方法，它使用3D CNN来获得更大的感受野以进行代价体正则化。但它造成了更多的计算成本；

（c）循环正则化是一种基于RNN的方法，它提出了顺序处理，将代价体分成与深度无关的代价图，以减少计算计算开销；

（d）我们的3D-DSC正则化是一种基于DSC的方法，我们将成本体积通过3D纵深卷积划分成中间特征图，然后应用3D点状卷积来建立这些中间特征图之间的关系，在减少计算开销的同时保持模型的性能。

与SR相比，我们的方法可以获得一个更大的感受野。虽然3D CNN正则化可以获得更好的性能，但它也会产生更高的计算成本。另一方面，我们的方案可以用较低的成本获得类似的性能。此外，循环正则化方案和我们的正则化方案是两个不同但相似的想法，我们都将代价体分割成中间特征图以降低计算成本。因此，我们得出结论，采用3D-DSC作为我们的正则化方案是可行且有效的。

如下图四所示，针对不同深度的相似性置信度问题，我们使用3DA来缓解它。红色体素代表相似性置信度；为了表示成本量，我们排除了通道维度；浅红色表示置信度被削弱。

虽然在3D-DSC之后，代价体信息可以被有效地聚合，但仍然存在着影响代价体质量的代价信息(我们将其定义为相似性置信度问题)。当来自不同关键点的特征被错误地匹配时，相似性置信度问题就会发生，这将导致代价体在同一空间位置上不同深度上存在相似性置信度，从而导致深度值估计不准确。如上图所示，一个参考特征在不同深度匹配了两个相似的源特征（图中佛像的两只手），而不同深度的置信度在代价体中的置信度中是相似的。这些相似的置信度会让估计的深度值不准确。由于注意力机制可以通过计算不同的权重来突出重要的信息，因此我们可以尝试使用注意力机制来解决相似性置信度问题。为此，我们提出了一个多维深度-空间注意力感知机制，该模块使用整个代价体的信息来计算注意力权重，以增强或削弱不同深度的相似置信度，从而缓解了这样的一个问题。

代价通道注意力模块：它由一个多层感知机（MLP）构成，该感知器作用于代价体的多维代价通道，通过聚合不同维度的代价通道信息来得到代价通道注意力增强权重。公式定义如下:

空间-深度注意力模块：与普通的注意力不同，它采用的是完全感知（分别聚合空间和深度两个维度），空间-深度注意力模块是分别在两个不同维度上（如空间和深度）来感知代价信息。首先，个人会使用核大小为1×7×7（同一深度的不同位置）的面向空间的各向异性卷积，沿空间方向聚合代价信息，同时保持同一深度的有效匹配代价信息。然后，使用一个面向深度的各向异性卷积，核大小为7×1×1（同一位置的不同深度），作用于深度维度，它有效地增强或削弱了同一空间位置不同深度的匹配代价信息。最后，个人会使用核大小为7×7×7的各向同性卷积，作用于多维度（空间、深度），以充分聚合上述过程的代价信息。公式定义如下:

最后我们通过级联这两个模块形成多维深度-空间注意力感知机制。公式定义如下:

通过上采样得到的高分辨率（HR）深度图直接影响到点云结果的质量。为了获得高分辨率和精确的深度图，我们提出了一个用于低分辨率（LR）深度图升采样的特征转移模块（FTM）。FTM的输入是一个三通道参考图像和一个单通道的LR深度图。为了统一输入的尺度，我们首先使用双三次插值算法对LR深度图进行上采样，得到一个更大尺度的深度图。而我们通过一个下采样层将参考图像下采样为16通道图像。在统一后，我们设计了一个权重共享的偏移量和权重提取网络，以获得参考图像的偏移量和权重，以及LR深度图的偏移量和权重。我们的骨干网络包含了七个卷积特征提取网络，一个偏移卷积，一个权重卷积，和一个sigmoid层。公式定义如下:

然后，个人会使用OWC块来计算用于指导深度图向上采样的权重和偏移量，其中k是一个超参数，我们设定k=12。然后我们用偏移量来指导特征采样，并将采样的特征与权重相乘，得到最终结果。最后，我们通过一个残差加法块得到HR深度图。公式定义如下:

我们在DTU数据集上与现有的state-of-art方法的定量对比如上表所示。我们的方法通过比较两种不同类型的方法（传统方法、基于深度学习的方法）都取得了state-of-art的性能。比如，我们的方法实现了最佳的Overall指标，同时也在Acc上达到了第二好的性能。

上图展示了DSC-MVSNet与大多数state-of-art方法的定性结果。如图中彩色方框(红色、黄色、绿色)所示，我们的DSC-MVSNet能够重建了一个更完整的点云这正好对应了我们在表格中最佳的Overall指标。

上表展示了我们的模型的泛化能力。可以看出与传统的多视点立体重建方法(Colmap、Pix4D、OpenMVG+OpenMVS)相比，我们的DSC-MVSNet在所有场景下都获得了更好的重建分数。此外，我们的DSC-MVSNet在TnT上的F-score为53.48，超过了所有列出的基于深度学习的MVS方法。

此外我们还进行了定性分析。从上图可以看出，相比较于我们DSC-MVSNet的重建结果，PatchmatchNet的结果具有更多不准确的点和噪声。而我们的方法能够在降低噪声的同时获得更准确的点位置，这得益于我们提出的多维深度-空间注意力感知机制。

如上表所示，我们展示了和现有的state-of-art方法在模型参数、内存消耗和运行时间等性能指标上的对比。结合定量结果和上表的结果，我们大家可以看出：我们的框架使用了比大多数最先进的深度学习方法更低的模型参数、内存消耗和时间，并且在性能上非常具备竞争力。尽管我们的方法运行速度较慢，但也具备了较小的内存消耗和参数(5.5 GB，253585)。

本文我们提出的DSC-MVSNet是一个新颖的由粗到细的端到端框架，它用于实现更加有效和更加准确的深度估计。在这项工作中，我们第一步使用3D深度可分离卷积来构建我们的正则化网络，以较低的参数和内存成本实现代价体的正则化。我们还提出了一个多维深度-空间注意力感知机制，让正则化网络能更专注于更重要的代价信息从而来缓解特征错误匹配的问题。此外，我们还提出了一个高效的特征迁移上采样模块来对低精度深度图进行上采样。

实验结果证明了我们方法的有效性与高效性，方法在内存占用和运行时间方面均优于主流的方法，同时超越了现有的state-of-the-art方法，并具有潜力在其他领域推广使用。

TechBeat是由将门创投建立的AI学习社区（）。社区上线+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还能关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

将门是一家以专注于发掘、加速及投资技术驱动型勇于探索商业模式的公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及TechBeat人工智能社区。公司致力干通过连接技术与商业，发掘和培育具有全球影响力的科学技术创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”: