你的荣耀手机学会「点屏幕」了，为什么笨 AI 也有未来？|AI|华为荣耀|荣耀手机_新浪科技

在移动世界通信大会 MWC 2025 上，我们看到荣耀和订餐订位产品 OpenTable 做的一次演示：用户用语音命令手机 AI 助理找家西班牙餐馆订个位，接着就看到手机屏幕被「接管」，一通自己操作。

这个 MWC 版本的演示，其实和荣耀去年 Magic 7 Pro 发布会上策划的那次「行为艺术」，是同一件事。

当时在深圳的发布会上，时任荣耀 CEO 的赵明指挥 AI Agent YOYO 打开美团。他的手没动，而是 YOYO 自己在屏幕上点来点去，一家店点了几十杯饮料，支付，循环到下一家，继续点，再循环，重复操作——直到最后下单了总共 2000 杯左右。

一通操作过后，深圳发布会场地周边的瑞幸门店纷纷「爆单」，门店咖啡师忙到崩溃，接到订单的骑手更是在门店排起长队。

这次效果显著却略带荒诞意味的事件营销，一定程度上让公众忽略了荣耀试图展示的核心技术：「基于 GUI 的个人 AI 智能体」。

时至今日，AI Agent 功能确实已经不新鲜了。而这个技术的关键点，在「GUI」这三个字上。

GUI 全称 Graphical User Interface，图形用户界面。作为一个基于 GUI 的 AI Agent，YOYO 不再依赖传统的 API 接口，而是有了一只虚拟的「手」，直接在代替用户进行图形界面操作。整个代行操作不在「后台」，而是直接在「前台」，在用户的眼皮底下实时发生。

需要澄清的是：Magic 7 Pro 市售机型用户的体验可能会与发布会演示存在差异。据财联社报道，当时现场演示用的测试机权限更高，能够自动免密支付和循环点单，这才不停地点出了2000杯饮料。至少在目前，市售机型需要用户明确告知点单细节（例如品牌、品名、杯型、温度等），并且在支付环节需要用户接管确认。

这个细节确实重要，但也不至于抹杀这项技术的存在意义。正相反，我们认为，「基于 GUI」是个很另类，很有趣，颇具试验性的 AI Agent实现路径。

AI Agent 交互的「前台」新路

荣耀 YOYO 的核心是多模态模型，GUI 交互的本质是语言+视觉的理解。

自然语言处理 (NLP)：理解「点一杯冰美式」的指令；
屏幕状态感知：识别当前界面中的内容，找到正确的按钮、输入框等界面元素；
拟人化操作：像人类一样点击按钮、输入信息；
循环操作：在新的界面中持续解析内容、定位和点击界面元素。

关于 GUI 的操作部分，这最后一步具体是怎样实现的，荣耀方面没有明确透露。一种稳妥的猜测是：它能够获得手机的无障碍功能 (accessibility features) 或类似的底层权限，从而控制屏幕点击事件。

这最后一步并不是什么难事，甚至比前面几步都简单得多。但除了此前智谱的 AutoGLM 等极少数之外，确实很少有其它第三方开发者和终端厂商在走 GUI 交互的路径。

在过去，虚拟助理控制软件和智能硬件的方式主要是通过 API 调用以及物联网协议。这可以理解为一种纯数字 (digital) 的通讯方式。

今年一月，谷歌在三星的指定机型上激活了基于 Gemini 2.0 的 AI Agent 功能。这次合作也是通过 API 或类似方式实现的（谷歌称之为 Gemini 扩展），初期仅支持 Gmail、谷歌地图、三星日历、三星时钟等第一方应用，以及 Spotify 等极少量第三方应用。

想要做到规模化，扩充支持的应用，需要开发者做一定量的 API 接入工作，同时也需要用户许可使用 Gemini 扩展。

▲Gemini 控制手机演示图源：Google

谷歌依赖 API 调用后台接口，而荣耀通过 GUI 模拟前台操作，二者在实现逻辑上形成了明显区别。后者的好处，在于可以规避 API 调用这一常规方式，绕过了其背后的商业博弈和数据成本，也可以更快、更容易地扩充支持的应用，实现规模化并改善用户体验。

成本是个关键问题。一方面是云服务费用，因为无论是 API 提供方还是调用方都需要运行服务器来进行操作。另一方面，通过 API 交换的数据也具有价值，因此具有更高数据价值的 API，往往收费也更高。

以美团举例，其订单服务在内的基础 API 收费标准为每百次调用0.15元（前百万次免费）。这还只是基础类 API，如果涉及价值更高的管理类 API，调用收费提高到每百次0.3元，且无免费额度。

另外，API 的使用也暗含着一些隐性的商业竞争要素。调用方获得了数据，同时也在向提供方发送数据，而不排除在特定条件下，双方都不希望肥水流向外人田。

而在基于 GUI 的方案下，至少就目前的演示效果来看，荣耀既不需要向美团支付 API 费用，双方也无需担心数据的归属，包括与之关联的隐私安全等问题。

AI Agent 只是在「模仿人类」点击屏幕，多么原始却有效的交互方式。

回归模拟，返璞归真

这种「返祖」式技术路径，让人联想到谷歌在2018年推出的 AI 电话助手 Duplex。

Duplex 的思路在当时同样有点脑洞清奇：谷歌合成了一个 AI 语音，替用户给餐馆打电话订位。这个 AI 语音听起来并不生硬，甚至能够模仿真人的口音、语速、语调，以及加入「嗯」、「you know」之类的填充词。

▲Duplex 技术演示图源：Google

今时今日，AI 生成语音已经彻底「污染」了电销和客服行业，让人感到厌烦。但至少在当时，用顶尖的 NLP和语音合成技术，通过「打电话」这种模拟人类的方式订餐，这种另类的，从数字到模拟 (analog) 的交互方式，确实令人耳目一新。

目前荣耀正在推进的基于 GUI 的 AI Agent，在我看来同样属于一种从数字到模拟的实现方式，用原始与先进相结合的思路，带来了全新的可能性。

基于 GUI 不一定是实现手机 AI Agent 的最佳路径，但不可否认它确实很有趣，甚至有点「硬来」的意思。

对于用户来说，使唤这样的 AI Agent没有学习成本，不需要研究提示语法；
而对于第三方应用和服务平台来说，也几乎不需要额外的开发成本就可以接入。甚至反过来看，它们也无法拒绝被「接入」，因为压根就没有发生真正意义上的「接入」行为。至少以 Android 目前的沙箱机制来看，应用层不太能够「抵抗」系统底层的行为。

基于 GUI 的 AI Agent，既是一种对传统人机交互的致敬，也为 AI Agent 的落地和体验提升，提供了一种降低门槛、提高兼容性的路径。

有时候，最趁手的工具，真就只是一根干净简洁的大棒。