MIT开发高效算法大幅降低强化学习训练成本

MIT开发高效算法大幅降低强化学习训练成本
2024年11月29日 19:38 DeepTech深科技

来源:DeepTech深科技

(来源:MIT News)(来源:MIT News)

从机器人到医学到政治学,各领域都在尝试训练 AI 系统做出有意义的决策。

例如,利用 AI 系统智能控制拥堵城市的交通,不仅可以帮助驾驶员更快到达目的地,还能提升安全性或可持续性。然而,教 AI 系统做出良好决策绝非易事。

支撑这些 AI 决策系统的强化学习模型在面对任务中的细微变化时,往往仍然会失败。以交通为例,当模型面对具有不同车速限制、车道数量或交通模式的路口时,可能难以有效控制。

为提升强化学习模型在具有多样性的复杂任务中的可靠性,MIT 研究人员引入了一种更高效的训练算法。

该算法通过战略性选择最佳训练任务,使 AI 智能体能够高效完成一组相关任务集合中的所有任务。以交通信号控制为例,每个任务可以视为一个路口,而任务空间则包含整个城市中的所有路口。

通过专注于对算法整体效果贡献最大的少数路口,该方法在提高性能的同时,显著降低了训练成本。

研究人员发现,在一系列模拟任务中,该技术比标准方法高效 5 到 50 倍。这种效率提升使算法能够更快地学习到更优的解决方案,最终改善 AI 智能体的表现。

“通过一种非常简单的算法,我们看到了惊人的性能提升。这种不复杂的算法更容易被社区接受,因为它的实现和理解都更简单,”论文资深作者、MIT 土木与环境工程系(CEE)和数据系统与社会研究所(IDSS)Thomas D. and Virginia W. Cabot 职业发展副教授、信息与决策系统实验室(LIDS)成员 Cathy Wu 说。

该论文的主要作者是 CEE 研究生 Jung-Hoon Cho,参与作者包括电气工程与计算机科学系(EECS)研究生 Vindula Jayawardana,以及 IDSS 研究生 Sirui Li。此研究将在神经信息处理系统会议 NeurIPS 上发表。

寻找折中之道

在为城市多个路口的交通信号灯设计控制算法时,工程师通常会在两种主要方法中进行选择:要么为每个路口单独训练一个算法,仅使用该路口的数据;要么使用所有路口的数据训练一个更大的算法,然后将其应用于每个路口。

然而,这两种方法各有缺陷。为每个任务(如一个特定路口)单独训练算法需要耗费大量时间、数据和计算资源;而为所有任务训练一个通用算法往往会导致表现不佳。

Cathy Wu 及其合作者试图在这两种方法之间找到平衡点。

在他们的方法中,研究团队选择了一部分任务,为每个任务独立训练一个算法。关键在于,他们会策略性地选择最有可能提升整体任务表现的单个任务。

他们借助强化学习领域的一个常用技巧——零样本迁移学习(zero-shot transfer learning)。这种方法将已训练好的模型直接应用于一个新的任务,而无需进一步训练。通过迁移学习,模型往往在新任务上表现出色,尤其是与原任务相似的邻近任务。

“我们知道理想情况下应该对所有任务进行训练,但我们好奇是否可以仅对一部分任务进行训练,并将结果应用于所有任务,同时仍能看到性能的提升。”Wu 说道。

为确定哪些任务最值得选择以最大化整体表现,研究人员开发了一种名为基于模型的迁移学习(Model-Based Transfer Learning, MBTL)的算法。

MBTL 算法由两部分组成:首先,它会模拟每个算法在单个任务上的独立训练表现。其次,它会模拟将每个算法迁移到其他任务时性能的下降情况,即所谓的泛化性能(generalization performance)。

通过明确建模泛化性能,MBTL 可以估算出对新任务进行训练的价值。

MBTL 按顺序进行操作,优先选择带来最高性能增益的任务进行训练,然后依次选择能够提供最大边际性能提升的任务。

由于 MBTL 仅专注于最有潜力的任务,这种方法可以显著提高训练过程的效率。

降低训练成本

当研究人员将这一技术应用于模拟任务时,包括控制交通信号、管理实时速度建议以及执行多个经典控制任务,该方法的效率比其他方法高出 5 到 50 倍。

这意味着,他们可以使用更少的数据量达到相同的解决方案。例如,在效率提高 50 倍的情况下,MBTL 算法只需针对 2 个任务进行训练,就能达到标准方法需要 100 个任务数据才能实现的同等性能。

“从两种主要方法的角度来看,这意味着其他 98 个任务的数据并非必要,或者对所有 100 个任务进行训练会让算法感到混淆,从而导致性能比我们的方法更差。”Wu 说。

使用 MBTL,即使只增加少量额外的训练时间,也可能显著提高性能。

未来,研究人员计划设计能够扩展到更复杂问题的 MBTL 算法,例如高维任务空间。他们还希望将这一方法应用于现实世界的问题,尤其是在下一代移动系统中。

该研究部分由美国国家科学基金会职业奖(National Science Foundation CAREER Award)、冠廷教育基金会博士奖学金计划(Kwanjeong Educational Foundation PhD Scholarship Program)以及亚马逊机器人博士奖学金(Amazon Robotics PhD Fellowship)资助。

原文链接:

https://news.mit.edu/2024/mit-researchers-develop-efficiency-training-more-reliable-ai-agents-1122

算法AI研究人员
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片