2022年7月9日,AI TIME组织了Ph.D. Debate第十一期,题为“矛与盾的对决——神经网络后门攻防”的研讨活动,特别邀请了宾夕法尼亚州州立大学电子工程系博士生向臻、清华大学博士生李一鸣、弗吉尼亚理工计算机工程博士生曾祎和普渡大学计算机科学博士生沈广宇作为嘉宾,与大家一起回顾与展望神经网络的后门攻击与防御。

随着神经网络的深入研究,网络的性能在不断的逼近人类。与此同时,网络的体积和对数据的需求也在急剧增大。比如,近年来OpenAI提出的文本-图像转换模型Clip使用了将近40亿组图像文本对进行训练.采集如此大的数据并进行训练对于个人甚至小型企业而言已经成为了不可能完成的任务。在此大背景之下,出现了数据采集,数据训练服务的处理模式——模型的使用者采用第三方收集的数据或是直接将训练任务交由第三方处理。这样就给后门攻击者留有了后门攻击的空间。具体来说,攻击者恶意的在一部分数据样本上加上触发器并修改对应标签,然后将其混入正常的训练样本之中。通过正常的训练流程之后,模型就会植入神经网络后门。有后门的神经网络有两个特点,一是其在正常神经网络上有比较高的准确率,二是一旦输入的样本含有特定的触发器就会导致模型的性能大幅下降。

神经网络的后门攻击会在多个场景下存在安全隐患,比如自动驾驶和人脸识别领域。本次我们将围绕以下几个话题进行讨论:

一、现有后门攻击的特点,设计的难点,以及未来研究的方向有哪些?

二、后门攻击和对抗攻击在预测过程中均需要对样本进行修改,后门攻击与对抗攻击也是如今神经网络安全研究的两个重要的方向,大家如何看待这两个方向的区别与相似之处?

三、现有后门防御的特点,设计的难点,以及未来研究的方向有哪些?

四、如何看待和设计新任务上的后门攻击和后门防御?

Q1:
现有后门攻击的特点,设计的难点,以及未来研究的方向有哪些?

李一鸣提出现在的后门攻击有很多种不同的划分方式,最常见的一种划分方式是根据它的生命周期来划分。而针对攻击者需要的权限来说,现有攻击可以分为三部分:第一部分的攻击要求攻击者只能修改训练数据集;第二部分针对训练流程的后门攻击,假设攻击者是可以操控训练流程的,但是不能修改模型结构;第三种的攻击者能力是无限的,比如可以修改模型结构。除开生命周期划分之外,从某些特定角度也可以进行划分。比如根据后门触发器是否可以被观察到,目前常见的还是触发器不可见的类型。

向臻也分享了他的看法,他认为较早提出研究后门攻击时是对现有图像pixel的替换,这些是能够实现的。最近提出的如通过网络或是某一种经过训练的function,都是实现后门攻击的方式。在未来,后门攻击应该是一个较为重要的研究方向。

曾祎提到,从最开始人们发现的invisible attack语义上的trigger到后续的norm bounded attack,都是从人类观察的视角作定义。通过近些年的发展,人们发现机器对于后门攻击有着更好的检测性,很多防御性的算法也有一些独特的方式去define或capture一些关于后门的assumption。因此,他觉得整体的发展方向一直都没有变,都是在保证攻击效能的情况下逐渐降低其可被观察性,也是未来可能被延续的发展方向。

沈广宇认为对后门攻击的设计应该在某种程度上更精准,使其无法很好的检测出来。

李一鸣认为后门领域一个很重要的问题是触发器在训练过程中会有些泛化性问题。比如在训练时使用的触发器A,预测时用的是和A相差很大的触发器,都有可能会激活后门。他认为如果只做data poisoning,而不去操纵它的训练流程,是无法降低其泛化性的。

曾祎分享了自己的一些观察,很多时候后门的触发器定义很模糊,可能只是一个行为来进行触发。有些做physical world的后门攻击会以水瓶、眼镜之类的物体为例,虽然这些也有语义信息,但是对于人类观察者而言有眼镜或没有眼镜对于图片都是没什么识别上的区别的。

李一鸣觉得这种情况下的invisible ability还是有必要的。

向臻补充了关于clean label的作用,他提到clean label可能会使得training tab trigger和test tab trigger不一样,而test tab trigger本身是有利于target class样本分堆的。假设在training时会有防御存在,那么clean label确实是会有一定的作用。

曾祎总结道,对于一些母领域如通信等,有AI的地方都会存在后门。今年对后门的研究愈发的有热情了,也是因为深度学习等随处可见的原因,后门的植入相对来说有很多更加宽松的条件使其易于在 dataset 上进行部署。

Q2:
后门攻击和对抗攻击在预测过程中均需要对样本进行修改,后门攻击与对抗攻击也是如今神经网络安全研究的两个重要的方向,大家如何看待这两个方向的区别与相似之处?

李一鸣提到自己之前投稿的经历,总会被审稿人问道:后门攻击和对抗攻击一样,预测时都要对图片进行修改。但是对抗不需要操纵训练流程,后门攻击还要操纵训练流程,假设更强,有什么意义呢?他认为二者其实是有很大区别的,首先是原理上。后门攻击本质上是一个数据驱动的模型,会受到数据集偏见的影响。而对抗攻击主要是神经网络模型的行为和人类行为之间的gap,这个gap中间的区域就是对抗可能存在的区域。那么后门攻击对权限等级的要求是否会更大呢?其实并不是这个样子的。对抗样本生成对抗预测的过程是一个很复杂的优化过程。目前也有很多对抗攻击研究模型之间的迁移性,但是既universal又transfer的攻击问题依然没有解决。我们可以理解为对抗攻击想产生在预测过程中是需要经历一些优化过程的,这也导致了对抗攻击在很多任务中都不能做到实时。后门攻击就不是这样,它具有实时性且在目前来看和模型结构没有太大的关联性。这些都是很便利的事情。

向臻补充了一些性质上的要点,trigger本身是distribution的,这也是因为我们在训练过程中对一部分trigger的pattern进行了大量的训练。而test tab可以使用的trigger是具有很好鲁棒性的。相比其他,后门的trigger可以给攻击的成功提供更多的保证。

李一鸣认为后门攻击确实要比对抗攻击复杂得多,对抗攻击中我们能做的比较少。而对于极为复杂的训练过程,很容易出现后门。给模型插入一个子网络或者操纵模型中的激活函数,都是很复杂的过程。

沈广宇提到这两种攻击在community的研究方向和感兴趣的人群上也有区别。研究对抗攻击的人不是很把它看作攻击,而是更关注其为什么会存在于网络之中。比如两张由人类看起来没有区别的图片在加入一些人类不可见的东西之后就会分错。而后门攻击就是一个完全的安全问题,它有着完整的攻击场景,攻击的轨迹和传统的网络攻击或系统攻击是完全一样的流程。设计攻击也是和网络攻击具有很大的相似性,即便有一些交叉但却是两个不同的东西。

曾祎提到曾有一个由工业界多家公司联合发起的调研,后门攻击排在危险性靠前的位置。他认为原因在于这些年大数据等发展使得后门的出现日益频繁,也使得攻击的成本越来越低。需要更高成本来植入后门的攻击者也因此有了方式和途径,所以后门攻击这个领域也会变得日益重要。

Q3:
现有后门防御的特点,设计的难点,以及未来研究的方向有哪些?

主持人毛海涛首先分享了两个问题,一是用完对抗学习之后是否也能解决后门防御的问题,二是如何检测后门攻击是否存在。

针对第一个问题,李一鸣提到之前有研究提到对抗训练会加重后门的威胁。这也就意味着并不是做完对抗训练就是安全的。然而,李一鸣提到他们组发现当poisoning rate比较小且trigger是invisible的时候,对抗训练反而会降低后门攻击的复杂度。

曾祎认为用对抗训练来做后门防御的致命一点在于,强迫模型去学习一个更鲁棒的feature。如果trigger的设计非常鲁棒且明显,效果就会越来越差;反之,就会发现对抗训练是有影响的,但是会对准确率有负向的影响。因此,一般不会用对抗训练来做后门防御。

针对第二个问题,向臻以杀毒软件为例,攻击和防御其实可以类比。他认为防御的第一步还是应该先通过detect来缩小范围。在做detection的时候,很多人的第一反应是detect一个已经训练好的模型来看是否含有后门。但其实detection如果从安全的角度来说,整个training阶段还是可以做detection的。我们去detect这个training set是否包含这些带有backdoor trigger的样本。当然这里要求不能是training control的attack。大家比较关注的是model是否被后门攻击,我们假设设计者是一个下游用户。他拿到一个网络想看是否其是否被后门攻击,防御的难点在于用户是无法获得training set的,而且在detection阶段和test time之前无法获得携带了backdoor trigger的样本。还有一些其他的工作,比如去训练一些浅层的model,这里和detect model也有着巨大区别。我们可以从shadow model得到有价值的东西来指导我们的detection。

回答完上述两个问题,沈广宇针对现有后门防御的特点,设计的难点,以及未来研究的方向分享了他的想法。他之前一直有留意inversion-based detection,眼下的方法可改进的空间很大,而且部署起来也较为稳定。

李一鸣提到detection类型的防御方法有其很重要的因素,但是他更希望做model-repairing的工作,比如从模型本身安全切入后门防御问题。这个任务可能和后门的植入性质有直接的关系。后门为什么会产生?其内在原理是什么?他提到自己是较为倾向这些更偏于本质的问题。

曾祎分享了自己团队近期做的工作,他指出团队并没有做这些assumption,其assumption就是一个universal pattern。假设有一些噪声会造成universal不好的效果,但却用这些噪声一直去做unlearn,我们使用的方法随之就可能有一个很低的unlearn rate。我们观察到目前大多数的attack都可以在一轮左右就被unlearn掉。但是实际观察到的trigger并不是ground-truth用到的trigger,也有很大的概率去remove。

Q4:
如何看待和设计新任务上的后门攻击和后门防御?

李一鸣以后门攻击为例,谈到在设计新任务的时候,后门攻击如果想做的比较好,还是有几个比较重要的要素。首先这个任务要足够的重要,第二是所用方法要与现有方法有足够的差别,第三是要有baseline。他提到如果设计一个攻击,就一定要测试在防御方法下的性能效果。对于新任务的防御,在足够多的攻击情况下设计防御的效果会好一些。

向臻提到做过一些关于新domain的工作,比如把后门攻击和防御延伸到3D的点云之上,他感觉最大的困难来自domain自身学习的特点。在设计backdoor trigger的时候也遇到了许多困难,我们如何设计一个不太合理的、不太容易被怀疑的trigger同时还能确保其可以被学习到?毕竟在鲁棒性比较强的网络中,想让其通过一个很小的改动分错本就是一个很难的事情。就这个任务而言,每个domain都有其自己的挑战,其意义在于对domain的更好学习,即什么样的trigger和pattern是可以被学习到的。

沈广宇对此提出了问题,3D点云的model更具鲁棒性,那么是指正常训练完的model对于正常的输入都会相对鲁棒性么?

向臻针对上述问题做出了解答,在做了点的选择之后,如一些critical point,其鲁棒性会有一定程度上的提高。在设计trigger的时候,也比较难通过学习trigger使其产生误分类。

沈广宇提到如今的physical learning可能不需要用户去上传data就可以帮忙做训练的过程,而如今是就算不上传data也能偷走data做攻击的场景。

针对上述的情况,李一鸣提到后门是有一些特殊性质的:一是其在正常情况下不会扰动或影响模型;二是其会植入一个特殊的行为,后门就是一种特殊的行为。这样就可以来做一个认证性的操作。Google曾有个工作是通过后门攻击给模型打上水印,之后验证模型是否有这个水印来判断模型的来源是否是自己。

主持人毛海涛针对设计新任务这一点,提出这些越来越难的任务面对差异较大的数据集时,后门攻击是否能在所有的task上都表现的好么?

曾祎对此做出解释,对特定task设计一个统一的方式是容易造成误判的,如CV中假如一些trigger会导致不相关的行为。因此,整个的设计思路应该是如何去搭建一个link——从特定的行为导致模型的误判。

李一鸣补充道,他认为现有的有监督范式下的任务都是有可能会出现后门威胁的。后门攻击的核心原因是因为现在的模型训练是数据驱动的,如果数据集有偏差而模型学习能力足够强,那么自然就会学习到这些偏见。他提出只要设计的足够好,就能找到相应的后门攻击方法,只是可能无法实现找到统一的攻击方法来攻击所有的任务。这是不现实的,毕竟每个任务都有自己独特的特性。

沈广宇提问如今的语音task都是用的什么model?是否还是Transformer呢?

李一鸣对此做出了回答,之前做过一个类似人脸识别的任务。这种结构并不会用Transformer的结构,而和现有分类任务的差别主要在于现有的分类任务都是预测有什么类别,训练就有什么类别,可以直接构建联系;在认证任务之中,训练集的人可能压根就没有注册过,所以无法像分类任务那样直接构建联系。当然,语音task还有很多种不同类型的任务,如语音转文字等等,因此也会有不同的任务模型结构。

李一鸣还针对多模态的场景进行了说明,他提到在多模态上做攻击很容易出现攻击一个模态效果不好,但是同时攻击多个模态很难保证攻击少数模态时就不成功。也可能会有人质疑这是进行了单一模态的拼接,这部分多模态的工作难免会既浪费时间也浪费资源。

矛与盾的对决——神经网络后门攻防-Mo 动态