MIT开发高效算法大幅降低强化学习训练成本|算法|AI|研究人员_新浪科技

来源：DeepTech深科技

（来源：MIT News）

从机器人到医学到政治学，各领域都在尝试训练 AI 系统做出有意义的决策。

例如，利用 AI 系统智能控制拥堵城市的交通，不仅可以帮助驾驶员更快到达目的地，还能提升安全性或可持续性。然而，教 AI 系统做出良好决策绝非易事。

支撑这些 AI 决策系统的强化学习模型在面对任务中的细微变化时，往往仍然会失败。以交通为例，当模型面对具有不同车速限制、车道数量或交通模式的路口时，可能难以有效控制。

为提升强化学习模型在具有多样性的复杂任务中的可靠性，MIT 研究人员引入了一种更高效的训练算法。

该算法通过战略性选择最佳训练任务，使 AI 智能体能够高效完成一组相关任务集合中的所有任务。以交通信号控制为例，每个任务可以视为一个路口，而任务空间则包含整个城市中的所有路口。

通过专注于对算法整体效果贡献最大的少数路口，该方法在提高性能的同时，显著降低了训练成本。

研究人员发现，在一系列模拟任务中，该技术比标准方法高效 5 到 50 倍。这种效率提升使算法能够更快地学习到更优的解决方案，最终改善 AI 智能体的表现。

“通过一种非常简单的算法，我们看到了惊人的性能提升。这种不复杂的算法更容易被社区接受，因为它的实现和理解都更简单，”论文资深作者、MIT 土木与环境工程系（CEE）和数据系统与社会研究所（IDSS）Thomas D. and Virginia W. Cabot 职业发展副教授、信息与决策系统实验室（LIDS）成员 Cathy Wu 说。

该论文的主要作者是 CEE 研究生 Jung-Hoon Cho，参与作者包括电气工程与计算机科学系（EECS）研究生 Vindula Jayawardana，以及 IDSS 研究生 Sirui Li。此研究将在神经信息处理系统会议 NeurIPS 上发表。

寻找折中之道

在为城市多个路口的交通信号灯设计控制算法时，工程师通常会在两种主要方法中进行选择：要么为每个路口单独训练一个算法，仅使用该路口的数据；要么使用所有路口的数据训练一个更大的算法，然后将其应用于每个路口。

然而，这两种方法各有缺陷。为每个任务（如一个特定路口）单独训练算法需要耗费大量时间、数据和计算资源；而为所有任务训练一个通用算法往往会导致表现不佳。

Cathy Wu 及其合作者试图在这两种方法之间找到平衡点。

在他们的方法中，研究团队选择了一部分任务，为每个任务独立训练一个算法。关键在于，他们会策略性地选择最有可能提升整体任务表现的单个任务。

他们借助强化学习领域的一个常用技巧——零样本迁移学习（zero-shot transfer learning）。这种方法将已训练好的模型直接应用于一个新的任务，而无需进一步训练。通过迁移学习，模型往往在新任务上表现出色，尤其是与原任务相似的邻近任务。

“我们知道理想情况下应该对所有任务进行训练，但我们好奇是否可以仅对一部分任务进行训练，并将结果应用于所有任务，同时仍能看到性能的提升。”Wu 说道。

为确定哪些任务最值得选择以最大化整体表现，研究人员开发了一种名为基于模型的迁移学习（Model-Based Transfer Learning, MBTL）的算法。

MBTL 算法由两部分组成：首先，它会模拟每个算法在单个任务上的独立训练表现。其次，它会模拟将每个算法迁移到其他任务时性能的下降情况，即所谓的泛化性能（generalization performance）。

通过明确建模泛化性能，MBTL 可以估算出对新任务进行训练的价值。

MBTL 按顺序进行操作，优先选择带来最高性能增益的任务进行训练，然后依次选择能够提供最大边际性能提升的任务。

由于 MBTL 仅专注于最有潜力的任务，这种方法可以显著提高训练过程的效率。

降低训练成本

当研究人员将这一技术应用于模拟任务时，包括控制交通信号、管理实时速度建议以及执行多个经典控制任务，该方法的效率比其他方法高出 5 到 50 倍。

这意味着，他们可以使用更少的数据量达到相同的解决方案。例如，在效率提高 50 倍的情况下，MBTL 算法只需针对 2 个任务进行训练，就能达到标准方法需要 100 个任务数据才能实现的同等性能。

“从两种主要方法的角度来看，这意味着其他 98 个任务的数据并非必要，或者对所有 100 个任务进行训练会让算法感到混淆，从而导致性能比我们的方法更差。”Wu 说。

使用 MBTL，即使只增加少量额外的训练时间，也可能显著提高性能。

未来，研究人员计划设计能够扩展到更复杂问题的 MBTL 算法，例如高维任务空间。他们还希望将这一方法应用于现实世界的问题，尤其是在下一代移动系统中。

该研究部分由美国国家科学基金会职业奖（National Science Foundation CAREER Award）、冠廷教育基金会博士奖学金计划（Kwanjeong Educational Foundation PhD Scholarship Program）以及亚马逊机器人博士奖学金（Amazon Robotics PhD Fellowship）资助。

原文链接：

https://news.mit.edu/2024/mit-researchers-develop-efficiency-training-more-reliable-ai-agents-1122