2023年3月,由30个市场经济国家组成的政府间国际经济合作组织——经济合作与发展组织(OECD)发布了一份名为《新兴隐私增强技术-当前监管与政策方法报告》的文件。
该报告回顾了近期隐私增强领域的技术进步,并评估了不同类型的技术成熟度以及带来的机遇与挑战。
本文将为大家梳理盘点报告中提到的四大类(数据混淆工具、加密数据处理工具、联邦分布式分析、数据责任化工具)共14种隐私增强技术,从『技术介绍』、『应用场景』、『难点和限制』三方面展开,全面感知隐私增强技术的布局和潜力。
1 数据混淆工具
数据混淆,顾名思义,在本地处理数据时通过添加“噪音”或删除识别细节来混淆数据。报告中介绍的数据混淆类隐私增强技术有5种:『匿名化』、『伪匿名化』、『合成数据』、『差分隐私』、『零知识证明』。
01
关键技术
1.匿名化:匿名化是从数据中删除识别元素的过程,以防止对数据主体进行重新识别。理论上,经过匿名化处理的数据在与其他数据集结合时,不应该能够追溯到个人身份。匿名化被广泛应用是因为它可以做到在不侵犯数据主体隐私的情况下,删除数据中的识别细节,从而可以以不违反隐私和数据保护框架的方式使用数据。然而,在实际应用中,真正具有解释能力的匿名化很难实现,并且仍然难以解释。
2.伪匿名化:与匿名化相比,伪匿名化是一种较弱的去标识化形式。它主要通过从数据中删除可能被识别的信息,以减少对数据主体的识别风险。伪匿名化的数据在与存储在远程的可识别信息或外部可识别数据集相结合时,仍然保留被重构的可能。伪匿名化也被广泛使用,因为它可以从数据中删除识别细节,但与匿名化相比,伪匿名化的数据在许多司法管辖区被视为个人数据。
3.合成数据:合成数据是“从一个或多个人口模型生成的类似人工数据,用以实现保密性。” 主要思想是生成具有与原始数据源类似的统计特性的人工数据。使用合成数据可以减少隐私风险是达成共识的。但是仍然存在一些限制和挑战,例如加拿大隐私专员办公室(OPC)指出:“合成数据仍然对固定目的(例如医学研究)有用,因为它们保持与原始数据相同的统计特性,但不再是最初从个人那里收集到的数据。如果源数据中的记录出现在合成数据中,仍然可能暴露”。此外,与匿名化和伪匿名化类似,合成数据也容易受到重新识别攻击,并且无法防止属性泄露。
4.差分隐私:差分隐私通过对原始数据进行微小的改变(添加噪音),以掩盖个体输入的详细信息,同时保持数据的解释能力。其核心思想是对个体记录进行微小改动,安全地去标识化数据,而对聚合结果影响不大。噪音可以在数据收集时(分布式)或在数据发布前的中央位置添加(集中式)。
差分隐私在学术界已经得到一定发展,但只有少数机构大规模部署。当前仍需要进一步发展以定义不同应用场景中差分隐私的可接受参数和阈值。许多文献中讨论的差分隐私部署被批评其既不能提供足够的隐私保护,也不能提供足够的有效参数。
5.零知识证明:零知识证明可以回答是否某事为真或为假的简单问题,而不泄露任何其他信息。比如在回答关于某人收入是否超过某个阈值等简单问题时隐藏底层真实的收入数据。
零知识证明在提升隐私方面具有重要属性,但应用仍处于早期阶段。目前主要集中在改善加密货币应用的隐私性。未来有望在医疗、选举、年龄验证和交通管理等领域使用零知识证明,但迄今为止尚未进行大规模部署。ZKP被认为是欧洲数字身份钱包项目的重要技术之一,该项目是作为欧洲联盟有关电子身份和电子交易信任服务的法规(eIDAS法规)计划的一部分。
02
应用场景
场景一:在不泄露隐私的情况下验证信息:数据主体通常需要披露个人数据以获取服务,如年龄或收入信息。例如,基于零知识证明的数据混淆隐私增强技术可以在不披露信息的情况下确认信息,并可应用于医疗保健、政府、住房和电子商务领域。
场景二:提供更多更深入的研究机会:差分隐私等数据混淆隐私增强技术可以为原本过于敏感而无法共享的大型数据集提供新的共享研究机会。主要应用领域包括医疗保健、交通运输和金融等拥有大量敏感、有价值信息的领域。
场景三:安全存储:差分隐私等数据混淆技术可以降低错误外泄的数据被明确识别和确认的风险。将带有识别细节的数据伪名化,并提供安全存储条件,可以降低数据外泄后被重新识别的风险。
场景四:数据复用和共享(只需保留总体统计特性):通过保留总体统计特性,分析合成数据可以得出与分析原始数据源相同的统计结论。应用较为广泛的领域包括:训练人工智能模型、测试软件、共享数据、生成合成数字内容。
03
难点和限制
1.匿名化技术并不完全可靠:匿名数据集的记录可能在发布后被重新识别。这种挑战在很大程度上是因为在匿名化时难以预料到所有的重新识别手段:例如,可能与匿名数据集结合分析获取个人信息的所有可能数据集,以及未来可能出现的其他分析技术。
2.混淆数据时也可能意外泄露信息:差分隐私等应用程序向记录中引入噪音,但某些记录可能保持原始状态,数据泄露量与引入的噪音量有关。目前,对于在不同情况下保护隐私所需的噪音量没有达成共识的规范。此外,对于许多现实世界的数据集来说,隐私-效用的良好平衡尚不清楚,因为足以保护隐私的参数值可能会破坏效用,反之亦然。
3.技能和能力不足:混淆措施包括匿名化通常涉及复杂的过程,需要受过训练的专家来实施,以确保不会意外泄露信息。然而,并非所有组织都具备实施这些复杂过程所需的能力和资源,有时甚至缺乏对数据分析的认识和所需的能力而无法意识到和应对重新识别的风险。
4.缺乏落地案例:混淆数据隐私增强技术很有前景,但目前的使用案例相对较少。
2 加密数据处理工具
从数字安全和隐私保护的角度来看,因为需要对数据进行明文处理,所以数据处理一直是一个主要的风险点。在数据静止和传输过程中,常见的加密技术在一定程度上减轻了数据泄露的风险。然而,在处理过程中需要解密数据时,这些风险仍然存在。
与数据混淆不同,加密数据时一般底层原始数据保持不变,但通过加密进行隐藏。然而,值得注意的是,加密数据技术并不能保证防止数字安全漏洞,因为严重的数据泄露仍可能发生。报告中介绍的加密数据技术主要有『同态加密(HE)』、『多方计算(MPC)』、『私密集合交集(PSI)』、『受信任的执行环境(TEE)』。
01
关键技术
1.同态加密(HE):同态加密允许在不暴露数据给处理方的情况下进行计算。数据所有者使用自己的密钥对数据进行加密,然后处理器可以在加密数据上执行计算,得到只有数据所有者的密钥能解密的结果。因为数据可以在使用过程中保持加密状态,从而确保严格的机密性。它降低了数据在使用过程中的安全风险。
尽管同态加密的效率相对较低,但它在需要保护隐私且隐私效益超过计算成本的情况下是一个理想选择。同态计算方法在其他隐私增强技术中也得到广泛应用,如多方计算。尽管它的效率较低,但随着数据加密和处理效率的提升,使用同态加密的应用也可能增加。
2.多方安全计算(MPC):MPC是一组工具,使参与方能够在保持其输入数据私密的情况下共同计算函数。它消除了需要信任的第三方查看和管理数据的需求。MPC可以聚合敏感数据,而无需要求任何数据贡献者披露自己的数据。因此,可以使用秘密共享技术或同态加密来聚合和计算来自多个参与方的数据。与同态加密一样,决策者可能需要考虑在法律下如何处理在MPC中使用的加密数据。与独立的同态加密应用相比,MPC应用更加成熟。
3.隐私集合求交(PSI):PSI是一种安全的多方计算形式,允许组织在不揭示各自数据集内容的情况下找到共同元素。PSI只显示不同数据集之间的共享元素,而不需要数据主体披露其完整的数据集。PSI可以提升隐私和数据保护,减少数据暴露的风险。政策制定者可以要求希望匹配客户列表的公司使用PSI来限制不必要的数据暴露。PSI技术已在COVID-19接触追踪和移动消息应用等大规模应用中得到应用。
4.可信执行环境(TEE):TEE是计算机处理器上的一个专用区域,与操作系统分离并得到安全保护。它存储敏感且不可变的数据,并且可以在其安全限定范围内运行安全代码。TEE假设操作系统是可破坏和不可信任的。因此,在TEE下,操作系统无法访问处理器的安全区域中的信息或读取存储的秘密。TEE提供了一个安全的位置,可在设备上存储和使用数据,而不会将其暴露给不可信任的环境的风险。TEE可以帮助增强隐私和数据保护,因为它允许在设备上的使用过程中保持数据的安全性。
02
应用场景
场景一:使用敏感数据进行计算:同态加密和多方安全计算都允许在不披露给第三方的情况下使用敏感数据进行计算。最近的应用包括使用MPC生成有关安全防御、控制失效和损失的网络风险指标,进行保密的工资调查,将教育和税务数据库进行关联等。
场景二:在同一组织内对加密数据进行计算:组织内的敏感数据在静态和传输过程中仍然保持加密状态。这四种隐私增强技术允许在数据分析和处理过程中保护数据。一些协议侧重于多方安全计算,但相同的技术也可以保护组织自身的数据集的处理过程,从而提高在数据泄露事件中的安全性。
场景三:使用需要保持私密性的模型进行计算:组织通常拥有不希望公开的专有模型,而数据主体/所有者则拥有不希望披露的数据。多方安全计算、同态加密和可信执行环境都可以保护计算过程中的模型私密性。
场景四:接触追踪和相互联系发现:PSI技术已大规模应用,例如由苹果和谷歌提供的COVID-19接触追踪功能。在这些情况下,软件可以通知用户是否与已感染病毒的人的手机有过密切接触。移动消息应用也使用PSI进行联系人发现,即确定用户的联系人是否也在该应用上,而不披露用户的所有联系人。
场景五:在线广告转化测量:研究人员使用PSI将在线广告投放与商品支付进行匹配。
03
难点和限制
1.数据清洗挑战:使用多方安全计算、同态加密和隐私集合求交的加密数据无法被数据控制者和处理者检查和清洗。分析人员通常需要花费大量时间从各种来源收集数据并进行清洗,然后再将其用于模型中。然而,使用这些隐私增强技术时,分析人员无法查看原始数据,因此所有的错误需要在数据提交到计算之前由数据主体或数据控制者进行识别和清洗。
2.确保结果不泄露信息:加密处理工具旨在保护数据处理过程中的数据,但无法完全保证结果不会泄露信息。例如,从单个观测中产生的查询/计算结果将泄露该观测的内容。因此,在选择用于多方计算的函数时需要特别谨慎,因为结果可能会泄露有关输入数据的信息,就像由可信第三方进行计算时可能发生的情况一样。目前的研究正在探索在计算完成并发布结果之前如何测试计算是否可能泄露信息,并将这些测试设计到系统和应用程序中。
3.计算成本居高不下:与标准数据库查询或模型应用相比,对加密数据进行计算的计算成本要高得多。如果存在更简单、更便宜的明文数据处理方法,组织通常会避免使用这些技术。然而,如果政府推荐或要求使用加密数据处理,这些技术的使用可能会增加。随着研究的进展,这些过程也在变得更加高效。
3 联邦分布式分析
联邦分布式分析允许对不可见或不可访问的数据执行分析任务(例如训练模型)。通过这种方式,只有摘要统计数据或结果被传输给执行任务的人员。这样可以让敏感数据在数据源的保管下由第三方进行分析。报告中主要介绍『联邦学习』、『分布式分析』两种典型技术。
01
关键技术
1.联邦学习:传统的数据分析技术要求将数据集中处理,但是联邦学习可以使原始数据在不出本地的情况下处理。联邦学习减少了敏感数据离开数据主体设备并由数据处理者存储的需求。
联邦学习中,只有从模型中学习的参数被传输回数据控制者以用于优化模型。谷歌等公司已广泛部署联邦学习用于预测文本应用。但是在某些情况下,从联邦学习中提取的特征/参数仍可能泄漏个人信息。此外,越来越多的攻击想要恢复训练数据。
2.分布式分析:在分布式分析中,数据存储在数据控制者手中,但模型训练分布在不同的节点上。这使得敏感数据可以保留在数据源的监管下,同时由第三方进行分析。欧洲委员会的欧盟数据战略将分散式数据处理列为改进用户控制和数据保护合规性的方法。在公共和私营部门研究中,卫生部门也扩大了分布式分析解决方案的使用,以实现对健康数据的安全和隐私保护使用。其中包括欧盟卫生数据与证据网络项目、欧洲药品管理局达尔文项目和全球观察与健康数据科学与信息学项目。
分布式分析使软件和统计分析程序能够“移动”到数据所在的位置,而不是将数据流向中央数据存储库进行分析。与联邦学习类似,这种方法不允许数据分析员和处理者直接访问数据。所有要使用的数据首先需要编码为共同的数据模型,例如观察医学结果合作伙伴模型。
02
应用场景
隐私保护机器学习:联邦学习使研究人员能够在数据主体的设备上训练模型,这样可以避免不必要的数据收集和存储由数据控制者进行。目前,联邦学习模型广泛用于大规模训练预测文本应用程序。
03
难点和限制
1.联邦学习和分布式分析仍可能泄漏信息:例如,联邦学习应用程序可能会在返回给数据控制者的参数中泄漏信息。研究人员已提出使用加密数据处理技术,如同态加密或多方计算(上文已讨论)。
2.对稳定连接的依赖:联邦学习和分布式分析的使用依赖于稳定的连接。这对于需要连续可用的分析结果应用程序可能具有挑战性。
4 数据责任化工具
数据责任化工具为数据的收集、使用提供了新的控制方式,为数据交易提供了透明度和可追溯性。从底层原理上来说,数据责任化工具通常不被视为隐私增强技术,因为它们的主要目标不在于在技术层面上保护个人数据的机密性。之所以它们经常与隐私增强技术联系在一起,是因为它们通过提供新的方式来要求和执行数据处理的规定,或者为组织和个人提供更多的自主权和对数据的控制。报告中主要介绍『可问责系统』、『门限秘密共享』『个人信息管理系统』三种典型技术。
01
关键技术
1.可问责系统:可问责系统是管理数据使用和共享的软件系统,并跟踪合规性。它们控制和跟踪数据的收集方式、处理方式和使用时机。可问责系统设计的一个重要目标是授予数据访问权限,并将限制与数据相关联并遵循数据规范。
可问责系统可以通过强制执行规则和跟踪个人数据使用的合规性来增强隐私和数据保护。可以利用分布式账本技术(DLTs),如区块链,以确保记录数据的不可变性(即在记录数据后无法对其进行后期更改)。当用于可问责系统时,私有DLTs为数据访问、传输或处理提供了安全、不可变的记录。
这并不意味着DLTs就是PETs,事实上,DLTs的使用,尤其是区块链,甚至可能对隐私和数据保护带来风险和挑战。《经济合作与发展组织》(OECD)2022年关于区块链和其他分布式账本技术的建议承认“区块链具有一定的局限性和风险,其中一些是特定于区块链的,而其他一些则与数字技术更广泛相关,例如与隐私和安全、访问凭证的保管以及密码学漏洞相关的风险”。
2.门限秘密共享(TSS) - 也被称为多方计算门限签名(MPCts):这种加密工具需要预先确定的数量的密钥来解锁加密数据。它类似于一个由多个独立锁锁住的安全箱,密钥由不同的人持有,只有预定数量的密钥持有者同意使用他们的密钥才能打开它。
门限秘密共享可以增强隐私和数据保护,因为它可以在数据可供数据控制者访问之前设置必须达到的门槛。这些门槛可以由数据主体协商和设定,或者通过法规设定。目前,云平台上提供了针对特定用例的门限秘密共享服务。目前,它们的应用范围较窄。由于加密的开销,门限秘密共享在处理大型数据集时性能较慢。目前的应用主要针对较小规模的数据。
3.个人信息管理系统:当前的数据处理技术要求组织收集个人数据并将其存储在一个大型数据集中,然后可以用于处理这些数据。而个人数据存储改变了这一范式。它们将个人数据存储的控制权交给个人,个人可以选择数据的存储位置、访问方式和处理方式。
个人数据存储的部署和采用面临一些重要挑战。首先,一些个人数据存储的部署将更多的数据安全责任放在数据主体身上,而不是数据控制者/数据处理者身上,后者拥有更多资源和经验来保护数据。同时,由于最大的数据平台可能不愿放弃当前的数据治理范式,采用个人数据存储也存在重大障碍。
02
应用场景
场景一:为数据主体提供对其自身数据的控制:“数据责任PETs”的一个关键优点是承诺能够让数据主体在特定情况下对其数据拥有终极控制权。这确保了数据仅用于经批准的目的,并由获得授权的人使用。例如,在某个系统设计中,数据主体在其控制下的服务器上保留了所有个人照片的控制权。任何外部用户,如社交媒体平台,需要从数据主体的服务器(个人数据存储)获取访问权限,然后才能将这些照片显示给其他用户。这种结构将为数据主体提供对个人数据如何以及何时使用的细粒度控制。在另一种情况下,负责任的系统将为数据附加“策略”,以规定数据的使用时间和方式。
场景二:设定和执行有关数据访问的规则:负责任的系统和TSS都会分配并执行有关数据访问的规则。监管机构可以对数据的使用时间施加限制。这些限制可以通过数据策略附加到数据上,并由未来的负责任系统执行。TSS系统还可以通过要求预定数量的密钥来执行数据访问规则,以解密数据。
场景三:不可变地跟踪数据访问、转移和处理:DLT的一个重要潜在好处是其能够跟踪数据控制者持有的个人数据的任何访问、转移和处理。如果这些与数据相关的活动记录是不可变的,它可以防止未经授权的使用,并在检查不当访问时用作审计追踪。
03
难点和限制
1.使用案例不多:尽管大多数行业的市场参与者都在考虑是否可以在自己的环境中有效部署区块链等工具,但目前落地案例不多。
2.缺乏独立应用:可问责系统通常作为较大系统中的一个组成部分进行部署。因此它们必须作为组件进行评估,同时还要考虑它们在更大系统中的功能和相互作用。一个个体工具可能在安全性方面是安全的,但如果在较大系统中实施不当,可能会泄露数据。
3.配置复杂性:负责任工具承诺为数据主体提供更细粒度的数据控制,但这种控制带来了增加的复杂性。研究人员已经表明,随着复杂性的增加,系统的可理解性会降低。这反过来可能导致不可管理性和不可预测性。
4.数字安全挑战:特别是个人数据存储带来了保护个人数据的新安全挑战。它们将保护数据的责任从数据控制者转移到数据主体或第三方。
5.采用基于DLT的负责任工具受限并带来与隐私相关的挑战:DLT通常比集中式数据库更慢且效率低下。一些DLT的透明性也可能引发与涉及个人的隐私相关的担忧,即使使用私有区块链也是如此。这引发了潜在的隐私和数据保护(合规)挑战,并限制了可以采用于负责任工具的DLT的范围,或者需要与其他PETs的组合使用。
5 总结
随着数字化时代的发展,PETs作为保护个人数据和平衡数据可用性与隐私之间关系的关键解决方案,将在各个领域得到广泛应用。然而,PETs仍面临复杂配置、安全性风险和技术采用等挑战,需要持续研究创新和加强政策框架与合作,以实现PETs的潜力并建立可信赖的数字生态系统,确保个人数据的保护和创新共存。关注“开放隐私计算”,时刻关注技术最新进展。