在成功击败欧洲围棋冠军职业围棋二段樊麾之后,Google能继续赢下去吗?
近日,谷歌旗下的DeepMind公司官网公布了更多关于“阿尔法围棋”(AlphaGo)与世界顶级围棋选手之一李世石人机大战的细节。比赛将于3月9日、10日、12日、13日、15日在韩国首尔进行,并在YouTube上全程直播。
此外,这场比赛的新闻发布会将在2月22日下午的韩国棋院举行,届时李世石和谷歌旗下DeepMind的CEO Demis Hassabis将公布比赛的详细规则。其中Demis Hassabis将通过视频连接现场,李世石则在现场接受问答。
AlphaGo将在3月与世界顶级围棋选手之一李世石对弈(网络资料图)
此前,AlphaGo在没有任何让子的情况下以5∶0击败了欧洲围棋冠军职业围棋二段樊麾,同时也击败了目前最好的围棋程序中99.8%的对手。现在,这场即将在今年3月进行的人工智能与围棋高手李世石的对阵:究竟各方胜算几何?人类智慧能否守住“围棋”这座堡垒?
胜算几何?
对于这场对决,李世石信心满满。他在一份声明中表示:“我很荣幸能够对战谷歌发明的人工智能系统。我认为,这将是围棋史上最重要的一场比赛。因此我接受了挑战。我很有信心赢得比赛。”
此前,职业二段棋手、围棋资深教练刘轶一对《第一财经日报》称,不用担心,不会那么容易。不过他所在的朋友圈里,围棋职业棋手们众说纷纭,有些认为不可能,有些认为指日可待,还有声音是“人类快被自己灭绝了”。
而在网络上,人们认为AlphaGod的赢面似乎更大。例如,在BitBet网站上,AlphaGo被认为略占优势;Good Judgment的预测认为,AlphaGo和李世石取胜的可能性为五五开。
而谷歌DeepMind工程总裁德米斯·哈萨比斯(Demis Hassabis)则表示:大部分围棋棋手都认为,李世石的赢面占优。“他们认为,我们取胜的可能性不到5%,但他们不知道的是,我们的系统有着多大的进步。就在我和你们交谈时,这一系统也在进步。”
事实上,AlphaGo在没有任何让子的情况下以5∶0击败了欧洲围棋冠军职业围棋二段樊麾的事情,并非发生在今年1月,而是在去年10月,这意味着AlphaGo在与李世石比赛前,有近5个月的时间进行学习。
而搜狗CEO王小川的判断则更为大胆。他提出了自己的两个断言,断言一:AlphaGo将会完胜李世石;断言二:除了围棋,人工智能在其他博弈类的封闭游戏里也会横扫一切,完胜人类。
Google凭什么?
在此前,Google人工智能程序AlphaGo是如何击败围棋高手的?
Google AlphaGo的研究者David Silver说,AlphaGo系统的关键是,将围棋巨大无比的搜索空间压缩到可控的范围之内。
而为了达到这一目的,AlphaGo系统将最先进的蒙特卡洛树状搜索技术与两个深层神经网络相结合,每个深层神经网络均包含许多层,每层又包含数以百万计的神经元一样的连接。
在AlphaGo两种不同的神经网络中,“策略网络(policy network)”的作用是预测下一步,并用来将搜索范围缩小至最有可能硬起的那些步骤。另一个神经网络“价值网络(value network)”则是用来减少搜索树的深度,每走一步估算一次获胜方,而不是搜索所有结束棋局的途径。
上述方法使得AlphaGo的搜索方式相比之前的方法更人性化。例如,深蓝采用强力方法搜索的棋子位置要比AlphaGo多数千倍。而AlphaGo则相反,它通过想象下完剩余棋局来对下一步进行预判,如此多次反复。在上述模拟游戏中,策略网络提出下一步的智能建议,而价值网络则对走过的每个位置进行评估。
具体而言,Google首先采用围棋专业棋手的3000万步下法对价值网络进行训练,直到该网络对人类下法预测准确率达到57%(AlphaGo之前的纪录是44%)。
但AlphaGo的目标是击败水平最高的人类棋手,而不仅仅是模仿他们。为了做到这一点,AlphaGo学会自己发现新策略,通过自身两个神经网络之间成千上万的对弈,采用被称为强化学习的试错法逐步进行改善。这种方法提高了策略网络的效率,以至于最原始的神经网络(即其中不包含任何树状搜索)可以击败最尖端、构建有巨大无比的搜索树的围棋软件。
这些策略网络又反过来对价值网络进行训练,采用的还是从自我对弈强化学习的方法。这些价值网络可以对围棋的任何位置进行评估并预测获胜方,而人们过去曾认为这个问题太过困难,根本无法实现。
如果在今年3月的对战中,AlphaGo战胜李世石,是否意味着人工智能已经超过人类?
或许还不能如此断言。但在棋类游戏之外的领域,这场对决也将引发更多的思考——那些人们曾经以为人工智能不可能完成的脑力挑战,是否都将被一一打破?未来人类是否会被人工智能所取代?相比这些问题,100万的奖金显得并不是那么重要了。
进入【新浪财经股吧】讨论