AI手机与GUI Agent-仅靠开源绕不过系统权限

2025年12月11日15:07    作者:函楚  

  文/函楚

  在努比亚豆包AI手机于本月初上市后仅短短一整周的时间内便经历了如过山车般的起伏跌宕后尚未淡出数码科技圈的视线与话题之时,本周二,AI六小虎之一的智谱清源似乎是有意选择时机开源了其自研的手机屏幕感知视觉模型Auto GLM及完整的端侧GUI Agent解决方案并引发了“人人都可以自建AI手机”的新观点。而其开源与可控的特点也仿佛直击了人们此前对AI手机们可能泄露隐私的担忧。

  那么,开源GUI Agent真的会将由豆包和努比亚合力打造、其它手机厂商也曾并正在涉足的AI手机打回原点甚至真能实现人人都可自建AI手机的科技平权么?继上周撰写«从技术角度看AI手机的潜在影响»后,我们又对上述开源GUI Agent方案进行了解析。

  首先,我们对上述开源方案做一个简单分解。

  第一、GUI Agent具备对用户指令的接收与理解能力。

  第二、GUI Agent具备对用户手机屏幕内容进行获取及识别的能力。

  第三、GUI Agent根据用户指令,开启App并获取屏幕内容后传递给Auto GLM视觉模型对App内图文信息、控件布局进行精细识别。

  第四、GUI Agent结合用户指令以及Auto GLM视觉模型对应用内容的精细识别结果,向App注入触控事件或输入文字。

  从以上分解可以看到,上述开源GUI Agent方案与其它AI手机的功能与方案总体上类似。主要的差别在于,开源方案似乎不依赖系统权限,尤其是不使用豆包手机中被广为诟病的INJECT_EVENTS权限,就能够实现对手机进行触控。

  真有这样的灵丹妙药,可以让GUI Agent绕过手机系统定制而隔空操作手机应用?接下来就让我们抽丝剥茧,仔细分析上述开源方案中的亮点与隐藏问题。各三点。

  亮点一、Auto GLM模型开源、可自部署无需联网传输数据。与之前所有的AI手机系统方案不同,上述开源方案基于智谱自研、开源并可在用户本地个人电脑部署的屏幕内容识别视觉模型Auto GLM。由于模型参数量不大只有9B,Auto GLM甚至可以做到不挑机器,低端显卡、集成显卡甚至CPU都可部署运行。从这一点上看,的确有那么点科技平权的意思。

  亮点二、GUI Agent操作框架开源、手机操作方案完全透明。方案透明是隐私保护设计的重要组成部分。将全套系统方案开源,这就做到了包括实现细节在内的最大程度透明。屏幕内容获取、识别、思考过程和推理提示词的全面开放展示,在很大程度上可以打消用户对于“神秘科技会不会乱来”的疑虑。

  亮点三、开源方案还给业界提供了一个完整的分析样本。在AI手机和GUI Agent引发广泛关注的当下,甚至还可能推动终端应用内容识别端侧视觉模型、GUI Agent等赛道的新一轮发展及开源热潮。

  亮点之外,我们再来看上述开源方案中的隐藏问题。

  隐藏问题一、依然依赖系统权限。根据上述GUI Agent的使用步骤,用户的安卓手机需要开放“开发者模式”、开启adb调试功能后才能实现对手机的触控操作。如果需要输入文字内容,还需要在手机上安装ADB Keyboard这款三方开源软件。结合代码,可以很清楚地看到上述开源方案使用了adbshell来向手机注入各类触控命令。但adbshell本身就需要系统权限,而且adbshell也使用了INJECT_EVENTS这项敏感权限。

  隐藏问题二、依然存在安全风险。除了上面提到的系统权限使用之外,在普通用户手机上开放“开发者模式”、开启adb调试功能并安装adb输入法,几乎等同于让手机系统安全门户敞开。如果连接手机的电脑感染了病毒,还能将影响传播到手机甚至对手机进行远程控制。不出意外,所有手机安全软件在检测到开发者模式、adb调试开启后都将提示安全风险。多数头部金融类应用,在检测到这些风险后也都有可能触发自我保护机制。

  隐藏问题三、仍然可能错误操作。Auto GLM虽然可以由用户自行本地部署,但其对屏幕内容的感知精度仍有进步空间。这就意味着,由它生成的触控指令难以避免错误操作。

  我们再将上述开源方案和AI手机做一个简单对比。

  在上一篇文章中,我们指出了当前AI手机系统方案的九大潜在问题:1)联网传输、2)误操作、3)使用系统特权、4)“机机交互”或“网机交互”、5)应用沙箱侵入、6)超出应用授权范围使用、7)开发者利益损失、8)敏感页面读取、9)锁屏延迟。

  开源方案由于支持用户本地环境部署,所以没有1)联网传输这一影响。同时,受限于adbshell这一安卓原生机制,上述开源GUI Agent方案也无法读取受保护的应用界面如密码等敏感信息的输入界面、收费视频等,所以也不存在8)敏感页面读取问题。

  但其它七点潜在问题,仍然存在。

  综上,除避免联网传输数据以及提升了屏幕内容获取与识别的透明度之外,上述开源GUI Agent方案和现有AI手机系统方案其实高度类似:都需要借助系统权限来读取屏幕内容,也需要借助系统权限以及定制的输入法来向应用注入触控事件及输入文字内容;而这二者仍然是独立于用户之外的另一双眼睛和另一双手,并使得原有的人机交互变成了“机机交互”“模机交互”(上述开源方案没有网机交互);交互模式的转变仍然可能导致开发者权益受损、且非常有可能超出开发者授权用户使用App的范围。

  至此,我们不难发现:AI手机与开源GUI Agent都无法绕过对敏感系统权限的依赖。而这种对系统权限的强依赖则源自当前AI手机与GUI Agent的技术路线选择:都希望一劳永逸式地抓住手机屏幕这个入口,结合视觉模型的能力,来操作其它应用。

  换一种思路:优化并开放端侧内容识别能力、让应用开发者主动接入,或许是AI手机与GUI Agent们“软着陆”的更好方式。

  (本文作者介绍:资深系统安全专家)

责任编辑:张文

  新浪财经意见领袖专栏文章均为作者个人观点,不代表新浪财经的立场和观点。

  欢迎关注官方微信“意见领袖”,阅读更多精彩文章。点击微信界面右上角的+号,选择“添加朋友”,输入意见领袖的微信号“kopleader”即可,也可以扫描下方二维码添加关注。意见领袖将为您提供财经专业领域的专业分析。

意见领袖官方微信
分享到:
保存  |  打印  |  关闭
快讯:百度短线下挫跌超7% 文心一言正式发布 315晚会曝光假香米、非标水泥管等,多地连夜处置涉事企业 一图读懂丨“315晚会”都曝光了什么?点名了哪些企业? 刚刚!林毅,被查!2000亿白马跳水!上海突发!警方出手:刑拘! 女学员单飞歼11B向家人报喜笑得真甜 河南某县美术馆馆长群聊发不雅照 解释称手机中病毒 补壹刀:今天最大的国际笑话,但可能是一盘大棋! 视频|红色通缉犯郭文贵在美国被捕 奇葩的创维汽车:碰撞试验0分,专攻司机养生,创始人豪言“开车可续命” | 次世代车研所 “反华五人帮”曝光