揭秘多方计算:一场数据资产的诺曼底登陆大战如何避开“隐私权属”之礁

揭秘多方计算:一场数据资产的诺曼底登陆大战如何避开“隐私权属”之礁
2021年10月18日 22:07 21世纪经济报道

股市瞬息万变,投资难以决策?来#A股参谋部#超话聊一聊,[点击进入超话]

  原标题:21深度丨揭秘多方计算:一场数据资产的诺曼底登陆大战如何避开“隐私权属”之礁

  这是一场数据融通与交易市场的“诺曼底登陆”,避开纷繁复杂的数据权属问题,在使用权上开辟了“第二战场”。

  21世纪经济报道记者朱英子 北京报道 两个争强好胜的富翁在街头相遇,如何在不暴露各自财富的前提下比较出谁更富有?

  该问题的本质也是当下各个需求方进行数据共享流通过程中面临的最为普遍的难点,亦是数据安全监管趋严后必须面对的问题。

  每当我们谈论数据交易、融合时,首先迈不过的槛便是厘清数据法律权属,尤其是隐私权,以及其附带的数据流通安全、用途监管等问题。

  数据赋权的困境在于,大数据的海洋中很难建立起类似“一物一权”的清晰的产权关系,且数据价值不固定、不完整、不确定甚至不清晰,即使存在归属关系也不可能成立物权法意义上的所有权。与此同时,各界对打破数据孤岛进行要素化流通的需求又如此迫切。

  或许,我们该树立一个新的数据观:保护具体的数据不动,绕开所有权的争论,寻找第二落点,分离出特定使用权,释放数据使用权流通价值。

  这便是2000年图灵奖得主、清华大学交叉信息研究院创始人姚期智1982年为解决富翁问题而提出的多方计算理论,即,解决一组互不信任的参与方之间在保护隐私信息以及没有可信第三方的前提下的协同计算问题。

  此后,姚期智又提出了混淆电路理论,成为第一个通用的多方计算方案,同时用数学理论证明:“凡是可以在明文数据上进行的计算,理论上都可以在密文数据上不用解密直接进行计算,并得出与明文计算完全一致的结果。”

  而这,也是近四十年后的现在,北京国际大数据交易所(简称“北数所”)成立时,被称之为“新型”数据交易平台最根本的理论支撑之一。

  今年以来,北数所的第二大股东、多方计算技术平台承建方华控清交信息科技(北京)有限公司(下称“华控清交”)董事长、CEO张旭东接受了21世纪经济报道记者两次采访,详细阐述了华控清交的多方计算技术是如何实现“数据可用不可见,使用可控可计量”的。

  华控清交是谁?

  尤瓦尔·赫拉利在《未来简史》中写到:“传统宗教向你保证,你说的每个字、你的每个举动,上帝一直看着你,也在意你的所有想法与感受。至于现在的数据宗教则说,你说的每个字、你的每个举动,都是伟大数据流的一部分,算法一直看着你。”

  30年前的张旭东,是一个刚刚进入华尔街工作、数学好英文差的小年轻,做投资精算的他每天就是和数据打交道,用数据建模、编程、定价。此后十几年,人工智能的发展使得数据从被人看转变为了主要由机器“看”。

  2013年,张旭东从高盛集团全球合伙人的位子上退休,过了4年悠闲日子后便觉空寂失落,开始再次寻求与社会建立联结。

  也就是在寻求社会价值的时候,张旭东第一次听到姚期智说“既分享数据又不给出原始数据”这件事,这让他觉得“换个人跟我讲,我会觉得他是在侮辱我智商”。

  彼时,张旭东还特意翻出了姚期智1982年及之后发表的相关论文研读,似懂非懂地跟进了一年后,他觉得:“如果这件事是真的,可以改变人类数据生态。”

  带着这样的“如果”,张旭东联合老朋友清华大学交叉信息研究院助理教授徐葳、清控三联创业投资(北京)有限公司(清华大学的全资孙公司)于2018年6月份正式创立了华控清交并担任董事长、CEO。

  直到2019年2月份,华控清交与港交所合作,为港交所做了9个POC(概念验证),并全部验证成功,张旭东脑海中的“如果”才得以消散。也就是这个项目,为华控清交早期的研发提供了方向和需求。

  值得一提的是,2019年底,港交所在内地成立了深圳市港奕科技有限公司专门用于持有华控清交8.44%的股权,收购价为1亿人民币。如此推算,彼时华控清交的总估值约为12亿元。

  2021年10月份,华控清交宣布完成了B轮融资,总规模为5亿元人民币,此轮融资后总估值超40亿人民币。在估值上升期间,华控清交亦完成了从POC到企业级生产系统中的数据流通平台部署。

  如今的张旭东,觉得自己56岁的身体里住着一个40岁的创业灵魂,一个礼拜工作超90个小时,在首次接受记者专访的前夜,他发出的最后一个工作邮件时间是凌晨一点半,次日早晨接的第一个电话是八点。

  他试图将自己第一次创业(安家集团)的未竟之事、在高盛学到的团队经验和从“阿里妈妈”关明生那学到的企业文化管理理念全部付诸于华控清交的身上。

  “当激情降临,你是没有办法的,就像爱情来的时候。我是打了鸡血的要干这件事,因为这件事牛逼、难,而且要不断地找到新方法、新路径,但都还不够。”张旭东向记者说,当初的出发点就是想通过技术手段、法律支撑把数据变成资产,但是做着做着发现这个事情比自己想象得还大。

  2021年3月30日,华控清交出资3000万元参股了北京金控集团发起成立的北数所,持股15%,为第二大股东,其余的参股方还有,京东数科持股10%、微芯感知持股10%。其中,华控清交在其中的角色是多方计算的技术提供方。

  张旭东介绍,在北数所里,每一笔数据交易都是一个新的应用,这是数据交易可用不可见的特色。华控清交在里面做了两件事:一是,将多方计算所需要的算力耗费优化;二是,把多方计算底层复杂的密文运算操作封装成用户友好的通用操作,使不懂密码学、安全协议、分布式计算的普通码农也能像开发明文数据一样便利地自行开发应用。

  从欧盟的GDPR(《通用数据保护条例》)出台到我国的《数据安全法》正式实施,包含多方计算、联邦学习在内的隐私计算技术广受资本追捧。那么,在众多隐私计算技术中,多方计算的独特之处到底在哪呢?

  这就要回归到分析当前隐私计算技术的三大主流门派。

  隐私计算三大门派

  隐私计算的概念很大,由英文Privacy Enhanced Computing翻译过来。张旭东认为,我们把Privacy翻译成“隐私”是不准确的,在汉语语意上只涉及个人私事,其实Privacy指的是任何法人、有资格的主体,以及别人无权干涉的事情。

  记者查询发现,当前业界对隐私计算技术并未有明确的分类定义,结合公开资料和张旭东所说,主要可分为可信硬件、密码学和基于明文的计算这三大类。

  第一大类是可信硬件,指可信执行环境,核心思想是构建一个安全的硬件区域,各方数据统一汇聚到该区域内进行计算。比较有代表性的是Intel-SGX、ARM-TrustZone、Ucloud-安全屋等。该类技术对独立第三方来说,好处是不用深入研究算法和密码学,缺点是受限制较多,数据需要先集中后处理。

  第二大类是基于密码学的隐私技术,其安全性经过数学理论证明。这一支里包含,同态加密、混淆电路、秘密分享、零知识证明、不经意传输等等。多方计算便是基于以上隐私技术的结合而成。该类技术的缺点是算力耗费大,所以还未完全工程化。

  第三大类是以联邦学习为代表的新兴技术,主要包括,数据脱敏、差分隐私、联邦学习等。该类技术是基于明文的计算技术,安全性未得到数理证明,已知的缺点是,用数据脱敏技术之后的数据在密码学家的手里可以撞出百分之七八十的原始数据;差分隐私对特征很强的数据增加噪音也没用,其次,计算结果误差会随着噪音增大而上升。

  联邦学习是后起之秀,由Google在2016年首先提出,用于移动端上的信息计算,主要是针对用户输入法的建模,大概2018年左右,微众银行CAIO杨强创造性地提出了联邦迁移学习思路,用来解决数据融合、联合建模的问题,随之“引爆”国内市场。

  对于联邦迁移学习,杨强将其比喻为,抱着羊到别人的院子里去吃草。将模型放到不动的数据里去跑一跑,跑出中间结果拿回来,然后再把模型和参数一起梯度,放到另一堆数据里计算。

  在对数据分布有一定判断的情况下,越简单的联邦学习模型很容易倒推出原始数据。对此,杨强采用了半同态的方法来传递和保护中间的梯度信息,同态加密则是基于密码学的隐私技术,算力耗费增大。

  此外,联邦学习只能一对一两两计算,每次跑的时候都会损失精度,5次梯度迭代以后误差较大,且只能建模,不能做统计计算和查询。

  “我们有个技术叫隐私保护查询,查的人不知道数据提供方的数据,提供方不知道查的人是谁,查的是什么,得到了什么结果,平台也不知道,参与方可以是几万方,通常只做一个加法或者一个比较,这种事情联邦学习做不来。”张旭东指出,从目前碰到的需求来讲,联合建模的需求连1/3都不到,大量的需求就是要联合数据做一个统计和查询。

  综上,对比各类隐私计算技术发现,基于密码学的多方计算技术是图灵完备的,能够在保证数据隐私安全的基础上最大化保留数据的计算价值,同时也能灵活拓展、兼容其他多种技术。其天生的缺陷便是算力耗费巨大,这也是为何多方计算理论于1982年提出,过了近40年的时间才得以逐步工程化。

  多方计算工程化征途

  时至今日,多方计算技术的工程化实现才刚刚起步。

  21世纪经济报道记者联合启信宝整理出来的数据显示,我国涉及“安全计算”的授权专利和专利信息/软件著作权中含“多方计算”的公司数量才刚刚起步。

  其中,最早申请“多方计算”相关专利的时间为2018年5月份;出现了多条专利信息重复的情况;2018年总计有17条,2019年22条,2020年26条,呈逐年增长之势。

  “多方计算技术从理论到工程化实现,经历了漫长演进。”北数所董事、华控清交副总裁宋巍在2021年1月出版的《数据要素领导干部读本》中撰文指出,早期的多方计算技术并不具备实用性,单看其对算力的耗费就是明文数据计算的百万倍以上。

  2018年,姚期智带领清华大学研究团队实现了多方计算技术工程化突破,使中国在多方计算的工程化创新达到世界领先水平,通过不断改进和优化多方计算技术实现方案,从密码学协议和算法层面将多方计算的算力耗费优化至实用级别;通过把底层复杂的密文运算操作封装称用户友好的Python函数库和SQL操作,让用户可通过Python和SQL便利地自行开发应用;通过支持完备的数据类型和算法类型,使技术具有广泛通用性;通过接口定制和封装,能够与大数据、人工智能计算平台进行无缝对接;通过涉及可拓展性的系统框架,满足参与方数量、算力、数据类型、计算量等动态变化需求。

  工程化持续创新和突破,使多方计算技术真正具备可用性,实现了“数据可用不可见”:多个计算参与方可协同计算一个以各自数据密文作为输入的指定函数,保证各数据提供方的原始数据不出本地、输入不被意外泄露,摆正计算结果的正确性和隐私安全。

  同时,通过制定函数的计算合约,可有效管理各方数据的具体用途和用量,不符合合约的计算任务,不可被执行,最终实现数据的“使用可控可计量”。

  张旭东解释称,在北数所的数据交易平台上,参与方总计有6方:数据提供方、算法提供方、参数提供方、算力提供方、发起控制方和结果获得方。在实际操作当中可能有一些角色是重叠的。

  “6方通过算力和带宽进行能量加工,算出一个计算结果,把计算结果交给需求方。华控清交则不在上述任何一方中,我们是体系建设者。”张旭东强调到,数据流通的本质,并不是数据使用权的直接转手和传递,而是通过对数据资源的整合分析,数据价值仅仅体现在计算结果的使用价值,这个很重要。

  工程化实现后,华控清交的愿景是将该项技术基础设施化。“多方计算是一个全新的东西,它的通用化是非常重要的研发方向。”在张旭东的规划中,华控清交实现盈利还有比较长的路要走,目前科研支出依旧过半,需要全方位持续不断地投入研发。

  “目前政务、金融、医疗卫生这三大行业对多方计算技术应用比较早。我们希望未来该技术在全领域爆发,数据流通在任何行业都需要,它会催生几十万亿级的市场和万亿级的公司。”张旭东表示。

  工信部运行监测协调局发布的数据显示,2019年我国以云计算、大数据技术为基础的平台类运营技术服务收入2.2万亿元,其中,典型的云服务和大数据服务收入达3284亿元,提供服务的企业达2977家,大数据产业发展日益壮大。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:王珊珊

计算技术

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

7X24小时

  • 10-19 争光股份 301092 36.31
  • 10-18 盛泰集团 605138 9.97
  • 10-18 深城交 301091 36.5
  • 10-18 瑞纳智能 301129 55.66
  • 10-18 拓新药业 301089 19.11
  • 股市直播

    • 图文直播间
    • 视频直播间
    新浪首页 语音播报 相关新闻 返回顶部