既然机器能够学习,那么它们可以遗忘吗?

robots

 

关于AI系统的隐私问题日益增长,因此研究人员们正在探究他们是否可以只移除AI中的敏感信息,而不必从头开始训练系统。

各行各业的公司都采用了机器学习来分析人们的欲望、喜好和面部信息。一些研究者如今提出了一个不同的问题:我们怎么让机器“忘记”?

计算机科学中有一个新生领域叫作模型遗忘(Machine Unlearning),它研究的是诱发AI程序选择性失忆的方法,目标是在不影响性能的情况下,删除机器学习系统中特定人员或数据点的所有痕迹。

如果能够实现的话,这个概念能够让人们更好控制他们的数据以及数据带来的价值。虽然用户们可以让公司删除他们的个人数据,但他们一般不知道自己的信息已被用于帮助调整或训练了哪些算法。模型遗忘可以让人们在撤回自己数据的同时,避免公司再从他们的数据中获利。

虽然对于那些后悔过在网上分享内容的人来说很直观,但模型遗忘这一概念需要计算机科学中一些新的想法。由于相对于程序员而言,算法能够更快解决问题,因此大公司愿意花费数百万美元训练机器学习算法来识别人脸或对照片进排名。但一旦进行训练,机器学习系统就难以被改变,甚至难以被人们理解。

传统的消除特定数据点影响的方法,是从零开始重新建立一个系统,其中的代价相当高昂。“这项研究的目标是找到一个中间地带,”研究模型遗忘的宾夕法尼亚大学教授Aaron Roth表示,“当有人请求删除个人信息时,我们是否可以消除他的数据带来的所有影响,并避免付出从头开始训练系统的成本?”

研究模型遗忘的工作动机部分,源于人们越来越关注人工智能可能侵犯隐私的多种方式。一直以来,全世界的数据监管机构都被赋予了强制要求公司删除非法获取的信息的权力。如果后悔给出了隐私信息,如欧盟和加州等地区的公民,甚至有权要求公司删除他们的信息。最近,美国和欧洲的监管机构进一步要求AI系统拥有者删除基于敏感数据训练的AI系统。

去年,英国的数据监管机构发出警告,一些机器学习软件可能会受到如数据删除权等通用数据保护条例(GDPR)的约束,因为AI系统可能包含了个人数据。安全研究者已经证明算法有时会被迫泄露出创建时使用的敏感信息。今年早些时候,美国联邦贸易委员会(FTC)迫使面部识别初创公司Paravision删除一系列通过不当方式取得的人脸图像以及用它们训练过的机器学习算法。FTC委员Rohit Chopra称赞这种新的执法策略是一种迫使违反了数据规则的公司“丧失其欺骗成果”的方式。

模型遗忘这一小领域的研究正在努力解决监管方式转变带来的实际数学问题。研究人员们已经证明他们可以在特定条件下让机器学习算法产生遗忘,但这个技术目前远未达到大规模实际应用的水准。“这对于一个年轻的领域来说很常见,我们渴望做的事与现在知道如何做的事存在着差距,”Roth说。

多伦多大学和威斯康星大学麦迪逊分校的研究者在2019年提出了一个很有前景的方法。他们将新机器学习项目的源数据分成多个部分,在将结果组合到最终的机器学习模型前单独处理每个部分。如果之后需要以往一个数据点,只需要重新处理原始输入数据的一小部分。该方法被证明适用于网购数据以及一百多万张照片的数据集。

但最近,Roth和来自宾大、哈佛和斯坦福的合作者证明了这种方法存在缺陷。无论是偶然还是来自恶意行为,如果以特定顺序提交删除请求,模型遗忘系统就会崩溃。他们同时也展示了如何缓解该问题。

滑铁卢大学的教授Gautam Kamath也在进行模型遗忘的研究。他表示,上面提到的问题的发现和解决只是“让模型遗忘从实验室走到实际应用”这一过程中许多悬而未决的问题中的一例。他的研究小组一直在探索,让一个系统先后遗忘多个数据点会对其准确性造成多大程度的下降。
Kamath同样对公司如何证明或监管机构如何检查一个系统是否的确忘记了它应该遗忘的东西感兴趣。“感觉这个方面还有有一段路要走,但或许最终他们会由审计人员来处理这种事情。”

随着FTC和其他机构对算法影响力的研究加深,调查模型遗忘的监管理由可能会增加。Reuben Binns,一位研究数据保护的牛津大学教授表示,近年来,“个人应该对其数据的使用与成果有一些发言权”这一观点在欧美的呼声越来越高。

在科技企业能真正运用模型遗忘前,还需要精湛的技术来帮助人们在算法面前更好掌控自己的数据。即便到那时候,这种遗忘技术可能依旧不会对人工智能时代的隐私风险产生多大改变。

差分隐私(Differential Privacy)这一巧妙的技术,为系统能够泄露的个人信息设置了数学界限。苹果、谷歌和微软均推崇这项技术,但它的使用相对较少,而且依旧存在很多隐私危险。

Binns表示,虽然它的确是有用的,但“在其他情况下,它更像是一家公司为了显示它的创新而做的事情”。他怀疑模型遗忘可能会被证明展示技术敏锐度的倾向更强,不太可能带来数据保护的重大转变。同时,即便机器学会了遗忘,用户在分享数据时,也必须对接收方保持警惕。

(完)