来源:DeepTech深科技
强化学习(Reinforcement Learning, RL)是一种机器学习的范式,主要关注的是在特定环境中,如何通过智能体与环境的交互来学习最优行为或策略,以最大化某种累积奖励。
它与监督学习和无监督学习不同的是,强化学习不是从带标签的数据集中学习,而是通过智能体在环境中采取行动,并根据行动的结果(奖励或惩罚)来学习。
强化学习已被广泛用于多种领域,包括游戏(如 AlphaGo)、自动驾驶汽车、机器人控制、推荐系统等。
通过强化学习,机器可以自主学习如何在复杂环境中做出决策,以实现特定的目标。
然而,目前强化学习研究的一个痛点是,为了保证学习率能被合适地设定,现有算法需要对奖励或惩罚的规模需要被限制。
举例来说,对于现有的绝大数强化学习问题,一个默认的假设是奖励或惩罚对应的值位于 [-1, 1] 之间。在这种情况下,如果输入超范围的奖励或惩罚,算法无法正常的工作。
受无尺度在线学习(scale free online learning)的启发,美国波士顿大学博士生陈鸣宇和所在团队提出了一套无尺度强化学习算法,巧妙地解决了上述问题。
陈鸣宇补充称:“我一直在思考一个非常简单但经常被忽视的话题:如何让强化学习算法真正自动化?如何使得人类(博士生?)不需要再不断手动调整算法的参数?”
对他而言,本次项目更像是一个开始:他的短期计划在于将本文的结论扩展到更一般的场景上,如线性强化学习(Linear RL)、表征强化学习(representation RL)。
长期计划则是设计不需要任何假设的强化学习算法。他坚信这方面的工作,能增强强化学习算法的通用性和灵活性,并提高强化学习在现实世界应用中的范围和效能。
参考资料:
1.https://arxiv.org/pdf/2403.00930
排版:罗以
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)