二十多年前的网络上流行一句名言“在互联网上,没人知道你是一条狗”,如今在大数据时代下,只要你使用互联网,它就会记录下你的一切行为。
日常生活中你是否遇到过这样一些情况:登录网站需要电话号码进行注册、还有些网站平台要求你提供身份信息、还有一些软件要求人脸识别。不仅是个人信息,还有一些政务、金融、医疗等行业也会有成千上万的数据。万物联网的当下,互联网的大数据功能让个人享受到了便利,也让企业单位挖掘到数据所带来的价值。
如今数据已经被定性为第五大核心生产要素,成为国家基础性、战略性资源,是驱动数字经济发展的新“石油”。而隐私计算作为数据交易和流通过程中一项新兴技术备受青睐,具有广阔的商业潜力。
为什么隐私计算成为香饽饽?隐私计算的技术原理如何划分?数据流通和使用过程中隐私计算能起到什么样的作用?距离大规模商业落地还有多远?带着这些问题雷锋网邀请到了奇安信数据安全研究院执行院长、哈尔滨工业大学(深圳)刘川意教授为我们进行解答。以下为对话实录:
隐私计算源起,推动数据要素价值挖掘
Q:为什么会出现隐私计算这个技术?为什么这两年发展的这么快?是什么在推动?
A:2017年开始公安部、最高检察院进行了侵犯个人信息专项整治行动,随着执法力度的不断加大,打击了许多游走在灰色地带的非法数据交易公司。另外,国家也连续出台了一系列数据安全法律法规如《数据安全法》、《个人信息保护法》等。因此,数据市场出现了买方与卖方的断裂,数据所有方和数据需求方之间迫切需要一个安全技术手段来达成数据交换、开发利用、交易。
关于为什么这一技术发展如此之快,关键还是政策推动导致的。隐私计算业务我们在2018年在方滨兴院士的指导下开展起来,那个时候我们与和很多政府、医疗等重要行业客户交流数据开发利用过程中的安全问题时,客户回复数据都在封闭的局域网里不会给到第三方。到了2020年4月,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,明确将数据作为一种新型生产要素,与土地、劳动力、资本、技术等传统要素并列为要素之一。如何探索数据要素流通交易、数据要素市场化、多方数据如何安全融合等,在政府单位、金融机构、运营商等成为了热门话题。
到了今年5月,国家发改委、中央网信办、工业和信息化部、国家能源局再次联合发布《全国一体化大数据中心协同创新体系算力枢纽实施方案》,明确指出“试验多方安全计算、联邦学习、数据沙箱、区块链等技术模式,构建数据可信流通环境,提高数据流通效率”,以此促进数据有序流通,为培育数据要素市场奠定基础。随着《数据安全法》、《个人信息保护法》在今年相继出台,数据如何在安全前提下实现开发利用和流通交易这一核心问题直接影响到了互联网、运营商、金融机构、政府等重点行业的核心数据业务。
Q:隐私计算技术的怎么划分?这一技术的出现有何意义?
A:我们从数据流动(数据流出/不流出)和数据计算(集中/协同计算)这两个维度对相关技术进行了梳理和分析,形成四大技术流派:匿名脱敏、差分隐私与同态加密;安全多方计算;可信计算平台;联邦学习。
隐私计算技术的出现能够很好地平衡数据价值挖掘与数据隐私保护间的矛盾问题,解决实际中数据要素由于隐私安全问题缺乏安全手段安全开放与流通,为数据作为生产要素流通交易提供了技术基础,使得充分发挥数据要素的价值。
集顶尖科研实力,为隐私保护和数据安全开路
Q:奇安信是什么时候开始做隐私计算方面的内容?过程是怎么样的?有没有遇到哪些难题?有哪些重要代表性的事件或者时间节点?
A:奇安信数据安全子公司云安宝在18年开始做隐私计算业务的,当时方滨兴院士在17年就高瞻远瞩看到了这个痛点问题,并多次和我们核心团队强调这个事情的重要性。
隐私计算涉及AI、大数据、系统、密码等多学科,属于非常前沿的新技术领域。奇安信数据安全子公司云安宝与科研机构紧密合作,18年与鹏城实验室、哈工大(深圳)等科研院校共同承担了广东省科技计划安全专项-面向大数据应用的隐私保护与对抗技术与方法;并与哈工大(深圳)成立了数据安全研究院,召集了一帮教授和博士针对隐私计算领域进行深入研究。
为解决这一矛盾问题,方滨兴院士提出破局隐私保护与数据挖掘相悖的“模型加工场”方法。
这是一套系统的解决方案:基于核心方法-数据不动程序动:采取网络靶场技术,构建一个可信计算平台,隐私数据可以以裸数据的形式放在该平台中,由摆渡过来的外部程序利用这些数据来进行模型加工,但人员不能进入该模型加工场查看调阅数据;采用关键手段-分享价值不分享数据:使用信息过滤技术构建一个“防水堡”,确保外部程序在可信计算平台中计算之后,向外输出的只能是参数之类的宏观信息,而不能是微观的原始数据;基于辅助模式-数据可用不可见:使用者根据所提供的经过变换的样本数据进行潜在价值的挖掘分析,即“数据可用不可见”;基于扩展模式-保留所有权释放使用权,所有权与使用权相分离,可信计算平台可提供远程控制模式,让数据的所有者来远程决定其放到平台中的数据向谁赋予使用权,且由可信计算平台来保障被赋予使用权的人只能使用数据来生成相应的模型,以此发挥出模型加工场的作用,达到交易使用权不交易所有权的目的。
在方滨兴院士的指导下,基于数据不动程序动,数据可用不可见的隐私保护新理念,创新性地提出了调试环境与运行环境分离的体系结构,研发了数据交易沙箱这一核心产品,实现了在保护数据隐私的前提下,最大限度地挖掘大数据价值。数据交易沙箱目前已应用在政务、医疗、公安等重点领域,近期,“基于数据沙箱技术的数据服务平台在医疗领域的应用“在世界互联网大会上荣获2021数据安全典型实践案例。
逐渐落地,迈出打通隐私计算“最后一公里”的一小步
Q:奇安信的隐私计算现在形成了怎样的体系?有哪些典型的落地案例?
A:奇安信的隐私计算目前主要采用了数据沙箱和联邦学习等技术,研发了数据交易沙箱这一产品,可支持集中式数据共享开放,分布式数据融合分析等场景。
合作落地案例有某健康医疗大数据平台,将临床诊断数据安全开放给药厂做真实世界研究,有利于评价该药厂抗焦虑药物有效性以便改进;落地多个大数据局政务数据安全开放,落地客户已经完成了数据中台的建设,汇聚了社区、金融、市政、交通、环境、园区等类型的数据,希望将数据,服务于整个城市不同类别业务,如政务、金融、产业等,加快智慧城市的战略发展。在公安行业,落地国内首个重点人员风险评估AI预警,由于公安数据极其敏感和机密难以给到第三方数据分析公司或团队,某公安基于本项目数据安全流通交易平台使得公安数据开放至第三方数据分析公司或团队,实现数据可用不可见。基于本项目平台创新性研发了国内公安行业首个基于AI实时计算的风险评估预警系统以及基于自然语言处理技术的命案风险预警系统,实现了公安大数据安全融合分析,有力支撑了某省情报指挥调度工作。
Q:相比国内隐私计算厂商,奇安信的独特性体现在哪里?
A:奇安信创新性地提出了基于调试环境与运行环境隔离的数据沙箱技术,目前被国家发改委牵头的《全国一体化大数据中心协同创新体系算力枢纽实施方案》采纳,作为数据要素流通的四大技术模式之一。“试验多方安全计算、区块链、隐私计算、数据沙箱等技术模式,构建数据可信流通环境,提高数据流通效率。探索数据资源分级分类,研究制定相关规范标准”。
隐私计算商业落地任重而道远
Q:从行业的角度来看隐私计算解决的问题是什么?隐私计算当前遇到最大的挑战是什么?
A:从数据拥有者角度(更多地是甲方如政府、能源等)由于业务需要得要把数据共享出去,保证数据安全是他们的第一要务。从数据需求者角度(更多地是乙方如银行等)目前无法赤裸裸地采买数据,迫切需要隐私计算作为一种获取数据的手段。
隐私计算当前遇到的最大挑战是技术需要在实际场景中真正落地,现在处于市场早期,处在有了锤子(技术)到处在找钉子(实际场景)的阶段,一旦在实际场景真正趟通,进而形成可复制路径。
结语:
近年来,隐私计算技术在金融、医疗、政务等多个场景开始落地,正逐渐形成跨机构、跨企业、跨行业的交叉应用。然而,隐私计算技术虽然具有广阔的商业潜力,但当前的市场还存在认知不充分、数据流通的意愿不足、技术瓶颈多等问题,大规模商业化落地仍然受限。
那么如何商业化打通隐私计算服务的“最后一公里”成为行业内大家要思考的问题。
雷锋网(公众号:雷锋网)认为目前隐私计算市场构成复杂,做好定位尤为重要。
隐私计算业务场景主要可以划分为三类参与方:作为数据源的数据方(大数据局、征信公司、拥有用户信息的互联网公司等)、使用数据的业务方(金融机构、政府机构等用在自身业务身上)和隐私计算技术服务商本身(搭建计算服务系统在业务方、数据方、可信第三方部署服务)。由此隐私计算厂商的类别可初见端倪,投入到隐私计算行业还需要根据自己的技术和商业资源进行市场定位,不同的特征决定了企业不同的市场定位和发展路线。
其次继续打磨隐私计算的技术和产品,符合用户的需求。
现在的产品和技术还不足以支撑用户对于完整方案的需求,隐私计算只是作为方案中的一个模块,有时需要多方合作客户进行配合。目前技术可靠性还有待提高,并且缺乏可靠的技术标准认定,用户对采纳技术有疑虑。
再次,隐私计算产业需要进行推广并建立多方协同的合作模式。与一般技术的商业模式不同,隐私计算的商业天然有着多方协同的特征,是一个基于数据生态、搭建基础设施的商业。在现实情况中,有时可能会出现几家数据源,要打通数据方和业务方促进各方的合作,就需要搭建多方协同的合作模式。
隐私计算产业目前还没有成熟,不论是技术路线还是商业路径可能都会有不同的答案,究竟什么样的答案才是正确的,还需要时间来验证。
雷锋网原创文章,未经授权禁止转载。详情见转载须知。