硬核!IBM对「神经网络鲁棒性」的理论分析

近期,CVPR 2021 安全AI挑战者大赛正在进行中 (报名截止3月24日),相关技术解析:
1. CVPR 2021大赛, 安全AI 之防御模型的「白盒对抗攻击」解析
2. 还在刷榜ImageNet?找出模型的脆弱之处更有价值!
报名链接:
https://s.alibaba.com/Challenge
借由此比赛,引起了不少同学对【神经网络鲁棒性】研究的兴趣,本文为该方向最新进展解读,作者来自中国台湾国立交通大学和IBM。

论文链接:https://arxiv.org/abs/2102.11935

1

 引言 

神经网络的鲁棒性研究一直是一个热门的话题,该论文出自IBM是一篇很硬核关于神经网络鲁棒性分析的理论性文章,作者在论文中的数学证明由浅入深层层递进推。
为了能够清晰的阐述论文中的贡献,我花了很大的力气将文章中没有展开的证明进行了补充,并对文章中的一些推导中一些小错误进行了更正。
论文中最关键的地方就是作者提出了一个基于理论实证的正则化损失函数,如果能把它看懂并为我们所用的话,应该是一个很好的涨点利器。
2

 预备知识 

为了能够更加清晰的介绍论文中的公式推导和核心思想,需要对论文中涉及到的预备知识和符号加以说明,具体的符号形式如下所示,相关的介绍会在z 之后证明中加以说明。
假定有一个层的神经网络,其输入向量为,输出的类别是为,则有如下公式:
其中,为包含了神经网络中所有的权重的集合,即,为非负单调激活函数(ReLU和Sigmoid)。神经网络输出的第个元素被记作,输出中和两个类别的差值表示为。
在无对抗扰动的情况下,神经网络第层()的输出表示为,其中。在有对抗扰动的情况下,神经网络的第层的输出为,其中。

2.1单隐层权重扰动

为了简化问题,作者考虑了一个含有激活函数的四层神经网络,并试图探究在对抗扰动下误差传播的边界。对于含激活函数的四层神经网络可以由如下公式所表示:
其中,是第层的权重矩阵。考虑对神经网络中第二层权重矩阵中的任何一个元素加以的扰动和对神经网络中输入层中加以的扰动这两种情况,即,。令向量为第层权重误差
(举例说明如果第三层的权重被加以扰动,则受影响的第3层之后的权重,输入层向量和第二层权重不会受到影响)
所以可以通过获得第一层的输出 来获得误差向量,具体的公式如下所示:
论文中如上公式的推导限于篇幅的影响省去了很多推导步骤,补充的完整过程如下所示:
对照之前的符号的表格,然后根据三角不等式即可推出结果
接下来考虑传播过程中的每个后续误差向量,由于所考虑的层之后没有层被扰动,则误差向量的计算公式如下所示:
通过层层传播达到最后一层并能够评估扰动引起的预测误差。对于任何两个类和,的相对误差的计算公式如下所示:
对上公式的补充扩展如下所示:
该公式的推导主要利用到了公式(6)的结果
3

 理论推导 

3.1输入向量和单隐层向量联合扰动联合扰动
将在输入向量和单隐层向量联合扰动联合扰动下第层的权重误差向量记为。计算公式如下所示:
第二个误差向量包括第一个误差向量和权重扰动向量,具体的计算公式如下所示:
由于之后层没有添加权重扰动,则的计算公式为:
最后一层中的和两类的差值的计算公式为:
综上可以发现一个现象,通过误差传播,无论扰动类型如何,误差都随着权重矩阵的范数而增长。作者给出了不同扰动设置下的边界定理。
定理一:令为一个层的神经网络,其中,,,则有如下公式:
其中,表示的是行向量的维度,表示输入向量的维度。
定理二:令为一个层的神经网络,其中,,,。,。表示行向量的维度,则有如下公式:
其中,能被写成:
有如下形式:
其中,
以上的定理1和定理2分别给出了第个类别和第个类别在联合扰动中单层扰动和全层扰动这两种情况下的预测标签概率差值的上界。有坚实的理论做依靠使得作者能够提出基于理论推导得出的具有鲁棒性的损失函数。

3.2非奇异鲁棒性损失函数

根据以上严格的推导,作者提出了一种新的正则化损失函数用于训练神经网络使得其具有一定的鲁棒性,该损失函数公式如下所示:
其中,第一项为标准的分类损失,而第二项和第三项分别用非负系数和调整对输入和权重空间的扰动敏感度。它们受到定理2的启发,可以解释为由联合输入权重扰动引起的最大误差。

4

 实验结果 

如下图所示展示了每个模型的鲁棒性能。标准模型(a)易受权重和输入扰动的影响。奇异鲁棒模型(b)和(c)只对可见的扰动类型鲁棒,而它们对不可见的扰动类型甚至具有更差的鲁棒性。比较测试准确性的曲线下面积(AUC)分数可以发现,使用本文提出的损失的非奇异稳健模型(d-f)明显优于标准和奇异稳健模型(a-c)。

END

(0)

相关推荐