科技首页创事记互联网电信 IT业界投稿

苹果CSAM丑闻再升级：扫描算法存严重缺陷，三年前就“偷窥”用户

2021-08-27 09:08:37 创事记作者：硅星人

视频加载中，请稍候...

　　欢迎关注“新浪科技”的微信订阅号：techsina

　　原标题：苹果CSAM丑闻再升级：扫描算法存严重缺陷，三年前就在“偷窥”且未告知用户

　　文/杜晨

　　来源：硅星人（ID:guixingren123)

　　美国时间8月24日，是缔造了苹果公司辉煌传奇的史蒂夫·乔布斯卸任 CEO，将大权交给蒂姆·库克十周年的日子。

　　十年过去了，苹果的财务表现无比优秀，曾经多年保持着世界上最值钱公司的纪录。然而在名气和财气背后，这几年的苹果，风评却越来越差。就连经常被拿来自我吹捧的隐私，苹果在这方面的种种表现，都越来越令人难以相信：这居然是苹果能干的出来的事？

　　8月初，硅星人写了一篇文章《苹果要偷看你手机电脑上的照片了》，说的是当时苹果被业界人士曝出（随后很快官方承认）的一项争议性极高的新举措：对用户手机上保存的照片，以及通过 iMessage 发布、上传到 iCloud 的图片进行审核，从而识别儿童色情和虐待内容 (CSAM)，打击其传播。

　　注意，我们在说的可是苹果——号称最注重用户个人隐私的苹果。而现在，苹果就这样堂而皇之地摇身一变，成了一家随时随地都要“偷看”你照片的公司。

　　自从这项新政宣布以来，对苹果不利的情况接连发生，使得 CSAM 扫描事件不断升级，目前已经基本达到可以称之为“丑闻”的程度了。

　　算法漏洞浮现

　　首先来个快速前情提要：

　　美国时间8月5日，约翰霍普金斯大学加密学教授 Matthew Green 曝光苹果将推出一项用于检测 CSAM 的技术。这项技术名为 NeuralHash，基本上就是在用户手机本地和 iCloud/苹果服务器云端，用算法对用户图片和一个第三方 CSAM 数据库进行哈希值比对。一旦比对成功，苹果就会屏蔽这张照片，并且不排除后续还会进行报警或通知青少年家长之类的操作。

　　这件事被曝出后，硅星人已经进行了详细报道，并点评了这项技术存在的一些应用层面的问题，主要有两点：

　　1）所谓只打击 CSAM 的技术，无法从技术上被限制只针对 CSAM，因为↓

　　2）此类工具已经在技术上被攻破，使得两张完全不同的照片，可以实现哈希碰撞（也即拥有相同的哈希值）

　　自那之后，这项 CSAM 技术又被曝出新的情况，使得丑闻再度升级。

　　机器学习研究者 Asuhariet Ygvar 发现，NeuralHash 算法早在 iOS 14.3版本就已经植入到 iPhone 的操作系统里了，并且苹果还故意混淆了其 API 命名。（而此前苹果在 CSAM 技术的官网页面上宣称，这项技术是新的，计划在 iOS 15 和 macOS Monterey 正式版推出时才启动。）

　　Ygvar 通过逆向工程的方法，成功导出了 NeuralHash 算法并且将其重新打包为 Python 可执行。这位研究者还在 GitHub 上提供了导出方法，让其它数据安全人士可以对 NeuralHash 进行更深的探索研究：

　　（这位研究者没有提供导出后的成品算法，显然是为了避免遭到苹果的知识产权诉讼，这一点稍后会详述。）　　算法链接：https://github.com/Asuhariet Ygvar/AppleNeuralHash2ONNX

　　Ygvar 自己做的早期测试显示，NeuralHash 算法对于图片尺寸和压缩调整的抗性较好。但如果图片进行了切割或者旋转，NeuralHash 就不好用了。这表明，NeuralHash 算法投入到 CSAM 检测的实际效果可能会打折。

　　不出意外，很快就有人实现了对于 NeuralHash 算法的哈希值碰撞。位于波特兰的安全研究员 Cory Cornelius 发布了一张比格犬照片和另一张灰色乱码图片。这两张看起来毫无关联的图片，通过 NeuralHash 算法计算出的哈希值居然是一模一样的。

　　紧接着，最早发布了模型导出方法的Ygvar，也复现了这次碰撞：

　　这条 GitHub 留言下方，有人进一步指出，Cornelius 发现的情况，其实比碰撞更严重，已经属于原像攻击 (pre-image) 的范畴了。

　　简单来说，哈希碰撞就是找到两张哈希值相同的随机照片，而原像攻击，你可以将其理解为“刻意生成的碰撞”，也即先给定一张照片，然后生成另一张和其哈希值相同，但内容不同的照片。

　　紧接着，更多开发者也用同一张照片实现了更多的碰撞：

　　甚至，有人在 ImageNet（一个备受机器学习人士欢迎，适用范围超级广的标注图片数据库）里，都能找到天然的 NeuralHash “双胞胎”。

　　ImageNet 里的一张钉子照片和一张滑雪板照片，NeuralHash 算出的哈希值相同。另一张斧子的照片和线虫的图片，也是天然的 NeuralHash 哈希值“双胞胎”。

　　对 NeuralHash 算法实现原像攻击，以及天然哈希值双胞胎的存在，进一步表明：苹果打算大规模推广的这个 CSAM 识别算法，存在远比人们想象更严重的，有可能被滥用的缺陷。

　　以下是一种可能性：

　　你在网上跟某人结仇，他想要报复你。于是他去找了一张 CSAM 照片，然后生成了几张看起来人畜无害，但是跟原始照片哈希值相同的图片，发了过来。你的手机将它们识别成了 CSAM，你被举报了，警察上门了，那人得逞了。

　　没错，我们完全不需要“设身处地”，把自己当作一个可能传播色情内容的人。每一个普通人都完全有可能成为技术滥用或是错误使用的受害者。如果今天被滥用的是 NeuralHash，而对象碰巧是你，那你的名誉将可能变得不堪一击。

　　研究者 Brad Dwyer 表示，尽管上述漏洞存在，目前的早期测试似乎表明，哈希碰撞的发生率和苹果宣称的误报率在相似水平。

　　但是，Dwyer 也强调，苹果目前在全球拥有超过15亿用户。这意味着NeuralHash 一旦出现误报，会对很大数量的用户造成负面影响。

　　瞒天过海、封口威胁

　　硅星人的读者可能还记得，前段时间我们写过 Epic Games 和苹果的诉讼，和这两家公司因为“苹果税”、应用商城政策等问题而结下的梁子。

　　这桩案子其实是 Epic Games 挑起的针对苹果的一场注定旷日持久的反垄断战争，话题也是完全“不设限”。所以在证据采集的阶段，Epic Games 这边的律师也搜集了大量跟案件原本话题有关或无关的资料，其中有很多都是苹果内部的高度机密资料。

　　也是在昨天，这桩诉讼再次曝出一条和苹果 CSAM 扫描丑闻有关的猛料：

　　苹果反欺诈技术部门“FEAR”（Fraud Engineering Algorithms and Risk）的老大 Eric Friedman在2020年和同事的一段 iMessage 聊天当中是这样说的：“我们（苹果）是全世界最大的儿童色情内容分发平台。”

　　这当然是一句带有讽刺调侃意味的发言。Friedman 实际表达的是，由于苹果的隐私安全设计，更多不法分子选择苹果通讯产品传播这些内容。

　　从表面上来看，这句话似乎是这位工作内容包括打击儿童色情内容的苹果高管在用一种苦涩讽刺的方式，来证明苹果为什么要做这件事。

　　但是结合今天关于 CSAM 已经讨论的情况，不禁令人感到细思极恐：苹果又是怎么知道自己平台上有如此多的儿童色情内容，以至于这位高管可以在2020年就下如此断言呢？难道苹果在此之前已经在扫描用户的设备和 iCloud 账户了吗？

　　一些人开始猜测，这家公司早就在私下扫描了。

　　在这条证据通过诉讼公开之后，苹果发言人回应 9to5Mac记者质询时表示：我们从2019年就已经开始扫描用户的 iCloud 账户了。

　　（这个时间，比刚才提到包含了 NeuralHash 算法的 iOS 14.3版本的发布时间，又早了整整整整一年。）

　　具体来说，苹果扫描的是用户的 iCloud Mail，也即用户注册 iCloud 账户时得到的那个 @iCloud.com 后缀的登录电子邮箱。

　　同时苹果还表示，也在对一些“其它数据”进行同样的扫描，但拒绝透露具体是哪些数据。该公司宣称，从未扫描过用户的 iCloud Photos（云端相片存储，iOS 默认开启的功能）。

截图来自 9to5Mac 报道此事件的文章

　　更令人费解的是，苹果号称将用户数据隐私至于无上地位，时不时也会用这套说辞去攻击贬低其它竞争对手（比如 Facebook），却从未以足够清晰的方式向用户告知过它也在扫描用户隐私数据的情况。

　　它号称珍惜用户的忠诚，所以重视用户的数据隐私，但现在我们看的越来越清楚，“保护用户隐私”更像是它采用的一种宣传口径。

　　苹果当然想要瞒天过海。但当一切再也瞒不住了的时候，它也会不惜通过各种手段去封住别人的口，阻挠第三方揭露它的问题。这一点，没有任何人比 Corellium 感受的更加深刻。

　　简单来说，常规渠道销售的 iPhone 有一套非常复杂的用户协议。如果安全研究人士如果要深度分析破解它（且未获得苹果的专门许可），这样的行为就会违反协议。而 Corellium 这家公司提供一种“虚拟化 ARM 架构设备”的服务，包括 iOS 和 Android 设备，让研究人士可以在电脑上对 ARM 架构的系统和软件安全性进行研究，而无需购买实体的手机。

　　于是在2019年，苹果以违反数字千年版权法为由起诉了 Corellium。一开始外界担心，考虑到苹果强大的法务力量，这个案子的走向最终可能会对安全行业不利。好在去年12月，主审案子的法官下达了一个初步裁决，确定 Corellium 的商业行为并不构成侵犯版权。

　　今年8月10日，原定开庭日期的一周前，苹果和 Corellium 突然达成了庭外和解。

　　这次和解还有一个更加微妙的细节：它发生在苹果正式宣布 CSAM 扫描，并且引发科技行业史无前例般巨大争议的几天之后。

　　很明显，苹果不希望在这个尴尬的时间点上，这桩悬而未决且对自己不利的案子被行业人士和公众当作它跟安全行业作对的证据。毕竟，在苹果官网 CSAM 的介绍页面上也有提到，苹果也在和第三方安全专家就 NeuralHash 的有效性和安全性展开合作。苹果软件 SVP Craig Federighi 接受采访时也表示，欢迎安全专家对 CSAM/NeuralHash 进行检验。

　　谁曾想到，这边刚跟苹果和解，几天后，Corellium 就又“欠招”了。

　　8月17日，Corellium 四周年的这一天，该公司发起了一个“开放安全计划”，招募安全研究人员，向最优秀的三组申请者提供每组5000美元拨款，以及长达一年的 Corellium 技术工具免费使用权限。