范文仲:新技术——隐私计算

2022年08月09日14:26    作者:范文仲  

  意见领袖丨范文仲(北京金融控股集团董事长)

  第二章 新技术

  二、区块链与隐私计算

  (二)隐私计算

  伴随着云计算、大数据、人工智能等新一代信息技术的快速发展,数据作为战略性和基础性资源,不但是连接虚拟空间和实体空间的纽带,也是数字经济体系中技术创新、需求挖掘、效率提升的重要动能。但大数据在互联网时代蓬勃发展的同时,也面临着安全问题的挑战,既有公民个人信息和隐私安全的隐患,也有行业和企业数据安全的隐患。加密技术使参与主体在无法对原始数据进行浏览、复制、修改的前提下,完成对数据的计算,得出有价值的计算结果,从而避免人为因素对数据流动和使用的介入,逐渐成为一种被广泛认可的解决方案。这种技术被称作隐私计算技术,又被形象地称为可用不可见技术。

《数字经济与金融创新》范文仲编著《数字经济与金融创新》范文仲编著

  1. 隐私计算技术三大流派

  (1)附带隐私保护的明文算法流派

  明文算法增强流派主要包括联邦学习、差分隐私、数据脱敏等技术路线。主要特点是,通过改变数据的使用方式,或在一定程度上降低数据的精确性,换取数据安全性和隐私性的提升。

  联邦学习(FederatedLearning)。联邦学习是一种分布式机器学习技术和系统,包括两个或多个参与方,这些参与方通过安全的算法协议进行联合机器学习,  可以在各方数据不出本地的情况下联合多方数据源建模和提供模型推理与预测服务。在联邦学习框架下,各参与方只交换密文形式的中间计算结果或转化结果,不交换数据,保证各方数据不泄露。联邦学习可以通过同态加密、差分隐私、秘密分享等提高数据协作过程中的安全性。根据联邦学习各参与方拥有的数据的情况,可以将联邦学习分为两类,即横向联邦学习和纵向联邦学习(见图2-1)。

  在横向联邦学习中,参与方在各方数据的“数量”这个维度上进行合作,解决单个参与方的训练数据不足的问题。在纵向联邦学习中,参与方在数据的“特征”和“标签”这两个维度上进行合作,解决单个参与方的数据特征过少或者没有标签的问题。纵向联邦学习需要计算参与方共同拥有的样本ID,可以通过安全多方计算中的隐私集合求交技术实现。

  差分隐私(DifferentialPrivacy)。差分隐私原理是基于统计学,在数据中加入足够的噪声,使数据与其拥有者无法完全关联,从而确保隐私性。因此,差分隐私并非通过将数据隔离在安全的地方确保隐秘, 而是将其淹没在噪声的海洋中,通过统计学的方式保障安全。从本质上讲,差分隐私是通过一定程度地降低数据的精确性,换取了数据安全性和隐私性的提升。加入的噪声方差越大,隐私保护程度越高,计算的精确性也越低。使用差分隐私,需要在使用数据的准确性和隐私安全性之间寻求平衡。

  数据遮掩(DataMasking)。数据遮掩就是按照一定的脱敏规则对敏感数据进行变形,实现对数据的保护。常见的技术手段有遮盖、泛化、替换、乱序、加扰等。同时,随着脱敏后数据信息完整性的丧失,数据的分析价值将随之降低。数据脱敏从技术上可以分为静态数据脱敏和动态数据脱敏两种。静态数据脱敏一般应用于数据外发场景,例如需要将生产数据导出发送给开发人员、测试人员、分析人员等;动态脱敏一般应用于直接连接生产数据的场景,例如运维人员在运维的工作中直接连接生产数据库进行运维,客服人员通过应用直接调取生产中的个人信息等。

  (2)密码学流派

  密码学流派主要基于数学与密码学原理,数据可在加密状况下进行计算,且将得到与明文计算相同结果。通过对数据和算法进行加密,使数据始终在密文状态下运算。主要技术路线是安全多方计算及相关支撑性技术。

  安全多方计算(SecureMuti-partyComputation)。安全多方计算是一种在参与方不共享各自数据且没有可信第三方的情况下安全地计算约定函数的技术和系统。通过安全的算法和协议,参与方将明文形式的数据加密后或转化后再提供给其他方,任一参与方都无法接触到其他方的明文形式的数据,从而保证各方数据的安全。安全多方计算技术并不是一个单一的技术,它是由一系列技术组成的协议栈。

  安全多方计算与其他隐私计算技术融合应用成为主流趋势。由于安全多方计算需要消耗大量的计算和通信资源,目前应用更加适用于小规模数据量,并且应用主要是聚焦相对简单的统计、查询等类型的计算,而基于安全多方计算的联合建模框架只能支持相对简单的机器学习模型,如逻辑回归模型等。其主流的应用主要以安全技术的形式融合在其他隐私计算解决方案中,例如与联邦学习的结合,在样本对齐阶段通过隐私集合求交来实现参与方公共样本ID的发现;在联邦模型训练阶段,可以通过同态加密、秘密分享等技术来实现对中间技术结果或转化结果的保护。

  安全多方计算需要用到相对复杂的密码学运算,其计算和通信开销会超过实际应用能承受的范围,导致无法实现在大规模数据上的应用。提升其计算和通信效率是当下技术演进的主流方向,主要呈现两大技术路径。一是聚焦减少算法的计算量和安全协议的消息交互量,通过压缩算法、采样、抽样等方式减少计算和通信开销,从而实现计算和通信效率的提升。二是通过新的密码学技术和设计新的算法协议,结合硬件加速技术(如GPU、FPGA、ASIC加速)和专有算法实现加速计算量较大的环节和步骤,进一步提升计算效率。

  (3)可信执行环境流派

  可信执行环境(TrustedExecutionEnvironment),是由全球平台组织(GlobalPlatform)提出的概念标准,主要基于硬件实现数据安全与隐私保护。

  可信计算指借助硬件CPU芯片实现可信执行环境(TEE),从而构建一个受保护的“飞地”(Enclave),对于应用程序来说,它的Enclave是一个安全的内容容器,用于存放应用程序的敏感数据与代码,并保证它们的机密性与完整性。以IntelSGX为例,Enclave的内存区域是由CPU默认加密的,且只能被同一个Enclave中的代码所访问,即便是外部高权限实体(VMM、BIOS、SMM)也无法访问。

  2. 隐私计算技术与区块链①

  随着技术的不断发展,区块链从一种防篡改、可追溯、共享的分布式账本管理技术,转变为分布式的网络数据管理技术,利用密码学技术和分布式共识协议保证网络传输与访问安全,实现数据多方维护、交叉验证、全网一致、不易篡改。

  隐私计算虽然实现了在多方协作计算过程中对于输入数据的隐私保护,但是原始数据、计算过程和结果均面临着可验证性问题。而区块链因其共享账本、智能合约、共识机制等技术特性,可以实现原始数据的链上存证核验、计算过程关键数据和环节的上链存证回溯,确保计算过程的可验证性。因此,将区块链技术对计算的可信证明应用到隐私计算中,可以在保护数据隐私的同时增强隐私计算过程的可验证性。

  区块链将成为隐私计算产品中必不可少的选项,在保证数据可信的基础上,实现数据安全、合规、合理的有效使用。主要体现在以下三个方面。

  区块链可以保障隐私计算任务数据端到端的隐私性。通过区块链加密算法技术,用户无法获取网络中的交易信息,验证节点只能验证交易的有效性而无法获取具体的交易信息,从而保证交易数据隐私,并且可按用户、业务、交易对象等不同层次实现数据和账户的隐私保护设置,最大限度地保护数据的隐私性。

  区块链可以保障隐私计算中数据全生命周期的安全性。区块链技术采用分布式数据存储方式,所有区块链上的节点都存储着一份完整的数据,任何单个节点想修改这些数据,其他节点都可以用自己保存的备份来证伪,从而保证数据不被随便地篡改或者被删除。此外,区块链中所使用的非对称加密、哈希加密技术能够有效保障数据安全,防止泄露。

  区块链可以保障隐私计算过程的可追溯性。数据申请、授权、计算结果全过程链上进行记录与存储,链上记录的信息可通过其他参与方对数据进行签名确认的方式,进一步提高数据可信度,同时可通过对哈希值的验证匹配,实现信息篡改的快速识别。基于链上数据的记录与认证,可通过智能合约,实现按照唯一标识对链上相关数据进行关联,构建数据的可追溯性。

  区块链与隐私计算结合,使原始数据在无须公开与共享的情况下,可实现多节点间的协同计算。同时,能够解决大数据模式下存在的数据过度采集、数据隐私保护,以及数据储存单点泄露等问题。区块链确保计算过程和数据可信,隐私计算实现数据可用而不可见,两者相互结合,相辅相成,将会深刻影响数据交易的未来。

  ①根据《腾讯隐私计算白皮书2021》相关内容整理。

  (本文作者介绍:北京金融控股集团董事长)

责任编辑:张文

  新浪财经意见领袖专栏文章均为作者个人观点,不代表新浪财经的立场和观点。

  欢迎关注官方微信“意见领袖”,阅读更多精彩文章。点击微信界面右上角的+号,选择“添加朋友”,输入意见领袖的微信号“kopleader”即可,也可以扫描下方二维码添加关注。意见领袖将为您提供财经专业领域的专业分析。

意见领袖官方微信
分享到:
保存  |  打印  |  关闭
赴美参加联合国大会签证一个没批,俄方:令人震惊 俄罗斯能源武器失败,欧洲天然气价格三天暴跌1000美元 最赚钱的高铁也亏损了,国铁集团负债破6万亿 徐翔妻子应莹每周市场点评:推荐配置具有高股息率的龙头股 俄罗斯“北溪-1”天然气管道无限期关闭!欧洲电价创历史新高,各国如何自救? 上海,这一次失分了!赢了执法,输了人心! 5岁女孩小区里被咬伤脸,狗主人支付25万医疗费后想一次性解决,女孩家人拒绝 理想ONE降价2万、10月停产,涉消费欺诈?回应来了! 嗅到了什么?巴菲特连续抛售比亚迪,持有14年为何不再坚守?追逐热门股或是投资"黑洞",谨记远离这类股 德国外长遭到德国多个政党议员批评后,果然甩锅俄罗斯了!