无需告知规则 MuZero算法自学成“棋”才

无需告知规则 MuZero算法自学成“棋”才
2020年12月30日 00:59 科技日报

    科技日报北京12月29日电 (记者冯卫东)据最新一期《自然》杂志报道,DeepMind公司开发的一种人工智能(AI)算法MuZero,可以在不告知其游戏规则的情况下掌握围棋、国际象棋、日本将棋和视频游戏,这是谷歌人工智能部门获得的又一重大突破。

    DeepMind公司表示,研究人员多年来一直在寻找一种方法,既可以学习建立用于解释当前环境的模型,也能够利用这个模型来进行最好的决策。到目前为止,大多数方法都难以在Atari这种游戏中进行有效规划。

    MuZero最初在2019年推出,通过只关注环境中最重要的一个方面,来学习建立模型并解决问题。通过将这种方法与“阿尔法狗”强大的搜索树技术相结合,MuZero的能力实现了重大飞跃。此外,MuZero还利用了前瞻搜索、基于模型的规划来解决问题。

    MuZero不会使用规则来找到最佳情况(因为事先不被告知),而是学习考虑游戏环境的各个方面,自己观察它是否重要。在数百万场比赛中,它不仅学习规则,而且学习位置的通用价值、成功的通用策略以及事后评估自己行为的方式。后一种功能可帮助其从自身的错误中学习、回忆和重做游戏,以尝试各种不同方法来进一步优化位置和策略价值。

    MuZero不仅在国际象棋、围棋和日本将棋上达到了与提供完善规则的“阿尔法狗”一样的超人水平,在Atari游戏这样的杂乱感知输入环境中,也创造了新纪录。研究人员将MuZero描述为“在追求通用算法方面迈出的重要一步”。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片