非侵入式负载监测中的隐私保护:不同的隐私视角

 

摘要

智能电表设备能够更好地了解私人信息泄露的潜在风险的需求。一个可行的减少这种风险的解决方案是在电表数据中注入噪音,以实现一定程度的差分隐私。本文在压缩传感框架中引入了单触发非侵入式负载监测(NILM),弥补了NILM推理的理论精度与差分隐私的参数之间的差距。然后,我们推导出有效的理论界限,以提供关于差分隐私参数如何影响NILM性能的见解。此外,我们通过提出分层框架来解决多触发(multi-shot)NILM的问题,从而概括我们的结论。数值实验验证了我们的分析结果,并对各种实际场景下的差分隐私提供了更好的物理见解。这也证明了我们的工作对于一般隐私保护机制设计的意义。

索引术语 – 差分隐私,非侵入式负载监控,压缩感知

 

1.引言

无孔不入的智能设备在我们的日常生活中收集了大量的数据,从我们的购物清单到我们最喜欢的餐厅,从旅行历程到个人社交网络。这些大数据缓解了我们的社会生活,极大地改变了我们的行为。在电力行业,广泛部署的智能电表正在近乎实时地收集用户的能源消耗数据。虽然这些数据对实现更有效的电力系统可能相当有价值,但它们引起了公众对私人信息泄露的极大关注。具体来说,电力行业的大数据加快了非侵入式负载监测(NILM)的发展,其目的是通过电表数据推断用户的能耗模式。

NILM是进行消费者行为分析最有效的方法之一[1],[2]。更全面的行为分析可以通过提供环境辅助生活[3]、实时节能[4]等方式让消费者受益。显然,这种分析对于主动需求侧管理是至关重要的,相信能够显著提高整个系统效率[5]。然而,用于推断的消费模式往往暴露了个人的生活方式。这意味着,智能电表数据的泄露可能会引起人们对隐私信息泄露的担忧,这就需要一个完善的隐私保护方案。欧盟是客户隐私保护的先锋:它已于2018年立法制定了反隐私数据保护条例[6]。巴西还制定了《通用数据保护法》,于2020年2月生效[7]。此外,美国有11个州最近颁布了隐私、数据安全、网络安全和数据泄露通知法[8]。

为了实现隐私保护,最常采用的技术是差分隐私(DP),该技术最早由Dwork等人在[9]中提出。DP便于数学分析,也与其他隐私度量密切相关,如相互信息[10]。然而,尽管进行了深入研究,但DP中的参数并不能提供直观的物理见解,这使得该技术无法广泛应用。因此,设计一个实用的NILM的隐私保护机制是一项非常精细的工作。

在这项工作中,我们提出,DP确实对电力部门有物理影响。我们提出通过NILM来理解DP,并描述DP中的参数如何影响NILM推理的性能保证。我们的工作为最终用户提供了一个更好的想法,不同层次的隐私保护服务收集仪表数据。

A.相关工作

NILM和DP都得到了很好的研究。自Hart[5]的开创性工作以来,为了提高推理性能,人们提出了多样化的NILM解决技术。我们的工作重点是NILM中的分解过程。经典的算法是在Hart的开创性工作中提出的组合优化(CO)。该算法结合了启发式方法和切换事件的先验知识。Zulfiquar等人在[11]中引入了辅助线性整数编程技术来加快CO的速度,进一步推进了这一研究。最近也有人提出了概率方法。例如,Kim等人将因子隐马尔可夫模型(FHMM)应用于NILM,并采用Viterbi算法进行解码[12]。这方面研究的关键挑战是为隐藏马尔可夫模型(Markov model)建立合适的状态。Makonin等人利用机器学习技术解决了这个问题,并提出了超状态HMM的概念[13]。深度学习的发展需要在NILM中挖掘更多的时序属性。例如,Kelly等人在[14]中为NILM部署了长短时记忆(LSTM)框架。

最近人们对设计保护隐私的NILM很感兴趣,我们的工作也属于这一类。然而,大多数文献都集中在讨论如何挫败对仪表数据的隐私攻击[15]。主要的技术是利用存储系统将噪声物理地注入到电表数据中,这确实为终端用户提供了一定的隐私保证。Backes等人在[16]中从理论上研究了利用存储注入操作实现不同级别隐私的方式。最近,人们利用各种方法来实现隐私保护。

Chen等人在[17]中利用热与隐私相结合的系统来防止占用检测。Cao等人从雾计算的方法研究了实际的实现方式[18]。Rastogi等人在[19]中进一步提出了分布式实现。据我们所知,我们是第一个在电力领域利用隐私参数的物理意义。

B. 我们的贡献

在建立DP参数与NILM推理精度之间的联系方面,我们的主要贡献可以归纳为以下几点:

  1. 用DP制定NILM公式:我们使用压缩传感框架制定NILM推理,并将DP的参数纳入公式中。
  2. NILM推理的理论特征:基于压缩感知公式,我们从理论上描述了单触发NILM推理精度的渐进上下限。
  3. 层次化多触发NILM:我们将单触发NILM解决方案推广到更实用的多触发方案,并提出了一种有效的分层算法。

我们想象我们提出的框架至少有三个早期采用者。

  1. 第一个采用者可能是消费者自己。为了保护隐私,消费者可以利用本地存储设备(电动车、光伏板等提供的)注入噪音,以达到一定的差异化隐私水平。我们的理论理解提供了一定的推理准确性,以破译隐私保护保证。
  2. 另一个采用者可能是ISO或公用事业公司。在记录消费者的电表数据以进行潜在的行为分析时,ISO或公用事业公司可以直接在记录的电表数据中注入噪声。由于大数定律,注入的噪声对审计的影响微乎其微(事实上,在注入噪声之前的审计可以解决这个问题),也是公用事业公司的大多数经典任务。然而,注入的噪声可能会影响行为分析(见附录A的详细讨论)。这是另一种解读DP参数物理意义的方法。
  3. 最后一个采用者可以是第三方隐私保护实体。他们可以出于不同的目的从消费者那里收集数据。而对于不同的隐私保护要求,消费者得到的补偿也不同。这可能为隐私保护行业提供新的商业模式,我们的理论结果可以为新兴商业模式的成本效益分析提供初步的理解。

本文其余部分安排如下:第二节将NILM表述为一个稀疏优化问题。利用压缩传感框架,我们建立了NILM推理精度的上下界限,并在第三节中将差分隐私与这些渐进界联系起来,以更好地理解DP的物理含义。然后,在第四节中,我们将压缩传感框架概括为多触发场景,并介绍我们的分层算法框架。数值研究验证了我们第五节理论结论的有效性。第六节给出了结论性意见和几个有趣的未来研究方向。我们在附录中提供了所有必要的证明和理由。我们将本文的范例可视化在图1中,它突出了各部分之间的基本逻辑。

 

2.问题公式化

本节首先介绍普通的NILM问题,然后制定压缩传感框架下的单触发NILM。最后,我们重新审视通用压缩传感算法,以解决由此产生的NILM问题。

A. 非侵入式负载监测问题

从本质上讲,NILM的目标是通过电表数据推断用户行为。从数学上讲,对于每一个终端用户(或一栋建筑、一个园区等),它可能拥有N个设备,用一个集合A = {A1,…,AN }表示。

为简单起见,我们假设每个设备的状态空间是二进制的,即开或关。对于电器i∈A,当其状态为开启时,其每次t的能耗是一个随机变量,其平均值为Pi。定义所有设备的平均能耗向量P如下:

因此,在每一个时间t,终端用户的能耗就是其状态为开启的设备的总能耗。我们用St ⊆{1,…,N}表示这个子集,用yt表示时间t的电表数据。因此,根据yt的定义,我们可以得知:

其中T代表观察期的长度。如果我们考虑终端用户每小时操作的分辨率为6秒,那么T为600。先进的计量技术使得采集数据的分辨率更加精细,如亚秒级的数据[20]。这样的数据可以让我们为每台设备开发出更独特的能源消耗模式。然而,在本文中,我们选择将重点放在一个程式化的模型上,以便更好地阐明DP和NILM之间的联系,而不指定分辨率。

典型的NILM旨在推断所有设备的开关事件。我们把表示为N个设备在时间t的开/关指标(0表示关,1表示开)。NILM的目的是由yt推断出Xt。

正如我们在第一节中所回顾的那样,已经提出了多种NILM算法。在这项工作中,我们选择压缩传感框架,从数学上利用事件矢量Xt中的稀疏性结构。然而,进行NILM推断是很微妙的,因为A中的能源消耗可能是相当多样化的,一些 “大象 “电器(消耗大量电力的电器)可能会在感兴趣的时期占据主导地位。在这种情况下,几乎不可能准确区分小家电的开/关状态。在下面的表述中,我们设计了一个能够实现准确的NILM推理的充分条件,在此基础上,我们提出了针对更多实际情况的子序列分析的层次框架。

B. 单触发NILM推断

为了更好地描述差分隐私和NILM之间的关系,我们将重点放在特定时间t的推理上,并假设Xt-1是已知的。我们把这个问题称为单触发NILM推理。为了利用稀疏结构,压缩传感公式需要进行以下变换:

通过这些变换,我们可以从数学上描述稀疏性假设。

假设1. (稀疏性假设)切换事件在时间上是稀疏的。也就是说,∆t中的开关事件数(即)由Ut限定,其满足:

备注:这一假设适用于大多数公开的数据集,其分辨率为二级尺度。在附录B中,我们对三个最广泛采用的公共数据集的稀疏性进行了描述,并说明了不满足这一假设可能会如何影响我们提出的框架的性能。

这种稀疏性假设促使我们制定以下优化问题,用于在每个时间t进行一次NILM推理:

其中δ是表征yt灵敏度的参数。

灵敏度的概念是针对随机变量定义的。

定义 1.我们定义∆f为一个有界随机变量yt序列的灵敏度:

其中为yt的下界和上界。

回到我们的问题(P1),灵敏度约束要求仪表数据是有界的,这就产生了我们的第二个假设。

假设2.仪表数据是有界的,即:

这个假设是可以直接证明的:它只是表明,当设备运行时,其能耗水平在特定范围内。而这样的范围对应的是灵敏度参数δ。

备注:这个假设也处理了部分测量误差。这种错误可能是由于环境问题、操作问题或其他问题造成的。实际上,这种错误并不是主要的问题。原因有二。首先,如[24]所示,这种误差的大小要求以总功率的5%为界。其次,如果数据质量太差,无法推断出任何有用的信息,根本不会有任何保护隐私的要求。

请注意,(P1)与压缩传感框架中的经典问题相似[25],但不完全相同。我们用表示(P1)的最优解,并将其视为基本真相。解读这一基本真相是相当具有挑战性的。二元约束加上目标函数,使问题变得难以解决。为了解决这些挑战,我们提出首先放宽二元约束,然后使用标准的压缩传感技术来处理由目标函数引起的非凸性。

具体来说,我们做出以下技术对齐假设,以实现精确的驰豫。

假设3.(功率集中假设)我们假设所有N个设备的平均能耗在同一顺序。数学上表示为P的升序序列,我们假设以下条件对所有U<Ut成立:

备注:假设3保证了压缩传感框架的有效性。这个条件试图消除将电光负荷与制冷或加热负荷区分开来的任务,这使得我们可以专注于推断能耗水平相近的负荷。对于不同能耗的情况,我们将详细讨论推迟到第四节的B部分。通常的想法是设计一个分层的NILM,在每一个分层中,NILM推理满足这个技术对齐假设。

这个假设允许我们在不改变最优解集结构的情况下驰豫二进制约束:

我们在下面的引理中正式说明(P1)和(P2)之间的等价关系。

引理1.如果假设1~3成立,则问题(P1)和(P2)在最优解集方面是相等的。具体来说,如果我们用来表示(P1)的最优解,用∆t来表示(P2)的最优解,则用下式表示其等价性:

我们在附录C中给出了详细的证明。这个引理使我们可以集中精力解决一个更容易解决的问题–(P2)。这是由于压缩感知的关键理论基础。我们可以有效地用来近似(P2)中的[26],从而得到(P3)。

来表示其最优解。为了将 映射到 上,我们进行了四舍五入。用表示四舍五入后的解。四舍五入的过程如下: 我们首先设置中的所有元素为0。然后,对于中的非零元素,以概念为基准,将相应的元素(j)设为1。为了表征的近似所引起的不精确性,我们将E[]和基本真相进行比较。对比后得出以下定理:

定理1.在预期上,之间的差异是有界的。具体如下,

其中C(P)是由向量P唯一确定的常数。

我们在附录E中描述了C(P)的具体形式。为了证明定理1,我们主要利用Candes等人在[26]中提出的压缩传感中的重要结论。

未完待续。。。。。。

 

参考文献

[1] George W Hart. Residential energy monitoring and computerized surveillance via utility power flows. IEEE Technology and Society Magazine, 8(2):12–16, 1989.

下略

(完)