Google新作:注意力机制是否真的能够提供模型的可解释性?
![](http://n4.ikafan.com/assetsj/blank.gif)
![](http://n4.ikafan.com/assetsj/blank.gif)
动机
但注意力机制是否真的能够提供模型的可解释性,为什么要使用注意力作为模型可解释性研究的一个重要途径呢?为了回答这个问题,并深入研究注意力机制在可解释性研究中发挥的作用。就有了本文这个工作。
1.1 注意力的作用
这是本文的一个出发点,接下来,针对注意力是否可以用于可解释,文本展示了相关工作。
1.2 注意力是否能用于可解释
为了更好的进行注意力机制争辩的分析,本文以一个非常简单的注意力例子进行分析,结构如下图。输入的序列首先通过 LSTM,然后在此基础上计算注意力在隐层状态上的权重分布,然后以这个注意力例子进行分析
![](http://n4.ikafan.com/assetsj/blank.gif)
Jain 和 Wallace [1] 通过实验证明可以找到一组完全不同的注意力权重,但模型最后的输出是相同,从而证明了注意力是不能用于解释的。
Serrano 和 Smith [2] 通过修改注意力权重发现模型中的注意力权重并不能识别出对输出最终的输入部分,证明注意力不能用于解释。
Grimsley 等人 [3] 从因果推理的角度进行分析,他们认为如果可解释性的因果定义已经被提前定义了,那么通过定义的方式不能说注意力结果就是解释,这点涉及到因果推理的很多内容,这里就不再赘述。
为了反驳以上观点,说明注意力是可以用于解释的,主要列举了一下的一个工作
Wiegreffe和Pinter [4] 通过反驳 [1] 中的实验设定,首先注意力机制需要跟整个模型联合起来运行才是有用的,单纯找到一个对抗分布是没有意义的,不能为了分布而找分布。于此同时,本文提出了一些实验方法,包括 uniform-weights baseline,expected variance, diagnose attention 等,通过这些实验发现能够通过一定的方法获取针对同一输出结果的不同注意力解释,因此注意力能够用于解释,但范围是受限的。
基于梯度:主要分为以下三种;
利用梯度表示: 利用梯度与输入相乘的方法: 利用积分梯度的方法: 基于传播:这里主要介绍了 layer-wise 相关传播的方法 [5];
基于遮挡:这个方法主要通过遮挡或者擦除输入特征中的部分特征,然后分析其对模型的影响,从而得出相关输入的显著性。因此这种类型的方法主要分为两种,基于遮挡的方法和基于擦除的方法,作者分别介绍了在 CV 领域的一篇文章和 NLP 领域一篇关于擦除方法的文章。
1.4 显著性 v.s. 注意力
另外,作者也部分为显著性方法就是最终解,还有其他的一些方法有待发掘,例如反事实分析等,于此同时,显著性方法也有一些缺陷,例如对模型中间过程表示能力的缺陷,对输入变化太敏感等问题,这些也是一些值得研究的方向。
赞 (0)