苹果新 AI 论文:微调 Qwen3-Coder,生成 UI 能力逆袭 GPT-5

苹果新 AI 论文:微调 Qwen3-Coder,生成 UI 能力逆袭 GPT-5
2026年02月06日 13:24 IT之家

IT之家 2 月 6 日消息,科技媒体 9to5Mac 今天(2 月 6 日)发布博文,报道称苹果公示最新 AI 研究论文,利用生成式 AI 优化 App 界面(UI)开发,经过特定方法微调的 Qwen3-Coder 模型,在 UI 生成能力上击败了 GPT-5。

IT之家援引博文介绍,该论文由苹果 UICoder 团队发表,主要是探索生成式 AI 如何更高效地融入 App 开发流程。

论文指出目前主流的“人类反馈强化学习”(RLHF)并不适合 UI 设计领域。传统的 RLHF 通常要求人类对 AI 生成的结果进行简单的“点赞 / 点踩”或排序。

然而,这种二元评价体系忽略了设计背后的复杂逻辑,也无法体现设计师的工作流。简单来说,AI 只知道“这个不好”,却不知道“哪里不好”或“怎么改才好”。

苹果为了解决上述问题,招募了 21 位拥有 2 至 30 年经验的专业设计师参与实验。不同于以往的打分模式,设计师需要直接通过撰写评论、绘制草图甚至直接修改代码来优化 AI 生成的界面。

团队收集了 1460 条此类深度注释,并将“修改前”与“修改后”的对比数据输入到一个奖励模型中。该模型通过学习截图和自然语言描述,学会了像人类设计师一样判断 UI 的美观度与功能性。

实验数据显示,基于“草图反馈”训练的模型表现最为优异。令人惊讶的是,仅依靠 181 个草图注释进行微调,该模型就实现了对 GPT-5 的超越。研究团队表示,这证明了“少而精”的专家级反馈能让小参数模型在特定领域展现出超越大模型的潜力。

研究还揭示了一个关键现象:设计审美具有高度主观性。在单纯的排序任务中,研究人员与设计师的观点一致率仅为 49.2%,几乎等同于抛硬币。

然而,当设计师通过草图或直接编辑来表达意图后,双方的一致率分别飙升至 63.6% 和 76.1%。这表明,在定义“什么是更好的设计”时,具体的视觉修改(Show)远比抽象的评分(Tell)更具共识价值,这也是未来 AI 辅助设计工具进化的核心方向。

参考

AIUI苹果it之家
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片