土地、劳动力、资本、技术之后的第五种生产要素是什么?数据。
数据的安全有序有效流动问题,学术界和业界“解法”众多,要让技术理论真正进入到应用落地的进程绝非易事。
为此,雷锋网(公众号:雷锋网)《AI金融评论》率先推出了《金融联邦学习公开课》系列,并与HKSAIR(香港人工智能与机器人学会)联手打造了《AI金融-隐私计算与联邦学习》系列公开课,十余位国内联邦学习与隐私计算顶尖专家做客线上讲堂,就相关研究热点与商业应用展开最前沿的分享和讨论。
近期,《AI金融评论》邀请到了华控清交CEO张旭东做客雷锋网公开课,谈谈他眼中的数据隐私保护技术,以及华控清交一系列工程化研究的探索和实践。
以下为张旭东公开课全文,AI金融评论做了不改变原意的编辑:
数据的现实生态
数据是数字经济的关键生产要素。从农业社会到工业社会再到信息时代,直到我们现在开始进入数字经济时代,每个社会发展阶段都有一种生产要素是最重要的和最难替代的。
目前党和国家对数据要素化的认识程度在不断加深,从2014年开始,习主席谈到信息日益成为重要的生产要素,到去年四中全会,包括在今年的6月1号,国务院关于海南自由贸易港建设的总体方案中,都提到了数据要素化,数据要流通、挖掘价值。
数字经济时代,数据是在人类生活和生产过程中,对自然资源和社会资源在分配和使用上进行优化的决策依据。
首先,我们来看看作为生产要素的数据,为什么要交易流通?
第一,生产要素的价格,是它参与社会化大分工的分配依据。国家讲得很清楚,要健全数据等生产要素,由市场评价贡献、按贡献决定报酬的机制,其中就提到了市场化的定价。价格是报酬的决定因素,数据作为生产化要素的报酬,那么如何形成定价呢?
这就需要流通,需要由市场来进行,需要由供需来决定。
我们用一个模型算出来这个数据值多少钱,是不是它的价格?不是,因为没有通过市场供需关系的检验,所以,数据的价格由市场决定,由市场供需决定,使数据成为生产要素的关键需要由市场供需决定,就需要流通。
那么,既然数据作为生产要素需要交易流通并进行定价,为什么现在为止还没有大规模的数据流通,没有大规模的数据要素市场?难在哪里?缺什么?
数据成为生产要素的难点和解题之道
从数据特性来看,数据是一个很特殊的生产要素,其特征是复制成本极低,复制速度奇快,传播速度也极快。数据一旦被看见,包括被人看见或者被机器看见,都可以被复制,而且是可以被无限制地复制。
在简单的经典经济学理论上,供需要有两根曲线相交,才能形成价格。明文数据的特点,使得它的供应和需求都是无限的,供应和需求两根线无法形成一个焦点,很难通过市场供需进行定价,并形成大规模的市场交易流通。
再者,数据还存在一些群体性和公众性的泄露或滥用的问题,这些可能会影响整个群体甚至国家的利益。如果出了事,谁负责?获得利益后,该怎么处理?权利应该怎么主张?原始数据、二手数据、再生数据等,不同方又有什么样不同的权益和责任?
这么多问题,目前要把它整盘解决,还需要很长的时间、需要实践和探索。我认为没有一个完美的答案——会有很多取舍,关键是取什么?舍什么?
从数据价值来看,我们可以把它分为信息价值和计算价值。
以波粒二象性打个比喻——数据有可以被展示或者被看见的具体信息,而另外一方面,数据虽然看不见,但是可以被用于计算得出结果,这就类似量子力学中的粒子和波。粒子是有形的,波是无形的,但是他们同样传播能量。
在目前大数据和人工智能的时代,我们也把数据比作新的能量——数据能,而数据的主要价值越来越多的体现在它的计算价值。
那么,数据交易流通的前提和形态是什么?
因为明文数据的特征和特性,无法进行大规模的交易和流通。所以必须把数据的具体信息和计算价值分开,把数据作为变成可用不可见,避免被看见后造成无限供应和无限使用。
计算价值怎么办?能不能对数据的计算价值进行限制,只有规定数据的价值,才能对数据的使用权进行定性、定量,形成有限的供应和需求,才能让这两根线竖起来形成焦点,同时避免、防止数据被滥用,厘清数据的责、权、利。
如何能够做到以上两点,通过市场供需进行定价和大规模流通的是什么?既不是数据本身,也不是明文数据,而是数据的特定使用权。
目前,大家谈到数据时,就会谈到数据确权和交易流通。这儿先抛出一个观点,就是:过早、过严、过窄地定义和规定数据的所有权,在法律上可能会制约数据产业和数据生态的发展。目前,要通过实践积累、摸索经验,反复的试验,才能够把这件事做好。
数据确权的难处,只能点到为止。交易和流通需要生态,其中更重要的是,需要数据和资本的结合,才能使数据的交易流通、要素化大规模发展。
现在,数据还不是法律和金融意义上的资产。“可用不可见”加上规定用途和规定用量,可以实现数据的归属权、使用权、收益权和处置权的分立,为数据真正成为资产,成为生产要素奠定技术基础。最后使它变成法律和金融意义上的资产的,不是技术,而是法律法规对其进行保障。
在目前数据确权相关法律法规还不健全的情况下,是不是可以进行尝试,使数据交易流通?可能性是有的。也只有这么做才能反过来为数据的确权真正提供有益的实践和探索。
怎么做?利用数据的可用不可见和规定用途、用量的技术手段,把它的使用权和受益权抽取出来。只针对使用权和受益权,在目前这个阶段,已经足够让数据进行先期的交易和流通,为后期的进一步的数据确权积累经验。
怎么才能做到可用不可见,又如何规定数据的用途用量?
隐私计算如何打破数据壁垒,构建社会化数据闭环
数据可用不可见的基础理论叫多方安全计算理论(MPC——multi party competition),由姚期智先生提出。安全是前提,没有安全就没有多方。
他通过两篇论文,提出了百万富翁问题:两个百万富翁碰到后,相互都不愿意告诉对方有多少钱,也没有一个可信第三方,怎么把这个比较做出来?
姚期智先生在86年从数学上证明,凡是可以在明文上进行的技术,都可以在密文上进行计算,而且得出同样的结果。现在多方安全计算成了密码学的一个重要分支。多方安全计算理论属于密码学范畴,是经过严密的数学论证的,它的安全假设是不信任硬件,不信任人。
在明文计算体制当中,数据存储的加密技术、安全技术已经很发达,就像洋葱,里边有个宝贝,一层一层包起来,装进保险箱,再装进地下室,然后把钥匙全拿走。
在这种情况下,唯独在它进入芯片进行计算之前,必须解码、解密成明文,才能编译成指令集,输入计算机进行计算,得出的是明文的结果,然后赶紧再包藏起来,进行传输。而在它解密成明文进行编译、计算的时候,从理论上和实践上都是不安全的——它要么要相信硬件,要么相信软件,要么相信人。
多方安全计算理论,可以使数据在密文上直接进行计算,所以它可以不相信硬件,可以不相信软件。
举个不一定恰当的例子,就好像去澡堂洗澡,在明文范畴内,你穿着衣服,从头到脚全副武装进去洗澡,很安全,不知道你是谁,但是到了澡堂之前,你必须裸露后才能洗澡,洗完后赶紧用毛巾擦干,恢复原状。
但是,在澡堂子里洗的过程安全吗?澡堂子是谁造的?谁管的?你能相信硬件,相信软件没有后门,相信管理这些硬件软件的人吗?
所以,多方安全计算做的就是穿着衣服洗澡,当然耗费大一点,水要用的很多,但洗完了以后出来还是完全盖住的。
在这个理论刚提出的八十年代,算力耗费之多,使得它只是在理论上成立,如今分布式计算、通讯科技的发展,则使它具备初步的实用性。
华控清交实现了基于多方安全计算,把多种基于明文的隐私计算技术(比如数据脱敏、差分隐私,联邦学习、可信计算等等)融合在一起形成的隐私计算解决方案,解决的是计算的准确性、保密性和计算效率之间的优化等关键问题。
那么,怎么从理论到实践,做到让数据可用不可见?
华控清交的数据要素化探索和实践
我们把加法、乘法和比较通过密码学原理,从根本上用密文的形式替代了明文,重新把通用函数和机器学习深度学习的工具密文化,可以像在明文上编程一样,做到可用不可见的底层逻辑。
同时,我们还综合应用了基于明文的隐私计算技术,实现了明文和密文的混合计算,在不同的场景下可以完成隐私查询、联合建模等实际应用。
如何实现的呢?拿电话来举例——人看不见,声音听得见,比喻可用不可见。
我们的隐私计算服务就如同“交换机”,负责按照数据提供房和数据使用方之间的数据计算合约,调配算力执行隐私计算,并把计算结果给到合约指定的结果计算方。它是数据共享与流通的计算控制站和算力调配中心,是隐私保护计算和高效算力的结合体。
数据接入节点就如同“电话机”,部署在数据端,把明文数据转换成计算因子或将密文计算结果解算成明文。而计算因子本身不承载任何可以“看见”的具体信息,是数据计算价值的载体。这些理论是通过密码学和数学严密论证的。
那么,数据程控交换机可以连接多台电话机,叠加起来、组合起来的就是数据电网,就如同国家对数据要素进行监测管理和宏观调控的神经系统和基础设置,助力数据要素化。
这种基于合约的隐私计算技术,能够有效打通社会化数据闭环,使数据真正成为生产要素。
雷锋网雷锋网雷锋网
雷锋网原创文章,未经授权禁止转载。详情见转载须知。