2016年03月16日18:32 新浪财经

  从阿尔法狗的工作原理看人工智能与二级市场投资

  文章来源:上海宽投资产管理

  近日,人工智能阿尔法狗(AlphaGo)与韩国围棋九段李世石的人机大战受到了围棋界、学术界、投资界甚至娱乐圈的广泛关注。在阿尔法狗以4:1取胜的同时,DeepMind团队于2016年1月28日发表在Nature上的论文的下载量也创下了Nature的历史新高。阿尔法狗将在未来占领投资界的论断开始层出不穷,甚至有人抛出了具备自我学习能力的AI未来将会奴役人类的假说。这虽然只是玩笑话,但也反映出人们对于未知事物的天然恐惧。

  那么,会下围棋的阿尔法狗会不会是一个顶级的基金经理呢?让我们能先来看看阿尔法狗是如何下围棋的,再通过比较围棋与二级市场投资的异同,来讨论拥有了自我学习能力、能够战胜李世石的阿尔法狗,会不会在二级市场的投资上也能所向披靡、战无不胜。

  首先让我们来解释一下阿尔法狗的算法逻辑

  围棋是一个输赢明确的游戏,理论上来说只要有可能穷举,计算机总能找到最有利的行为。然而围棋较国际象棋要复杂得多,其变化远超目前的计算机可以承受的范围,所以需要从两个维度来降低最优解的搜索范围:降低搜索的广度和降低搜索的深度。阿尔法狗通过深度学习(Deep Learning)的搭建逻辑,强化学习(Reinforcement Learning)的学习逻辑,以及蒙特卡罗树搜索(MCTS)的决策逻辑来解决这个问题。

  第一步:降低搜索的广度(第一次使用深度学习Deep Learning)

  对于下一步的行为,阿尔法狗没有必要尝试所有的可能性,对于一些明显不可能被选用的棋步,狗狗完全没有必要尝试,但是这个过程是怎么实现的呢?狗狗通过一个13层的神经网络深度学习抽象化了大量职业棋手的行为,这样可以大大缩小搜索的广度,通过模仿职业棋手抛弃一些完全没必要考虑的棋步。

  第二步:狗狗自己跟自己下棋(强化学习Reinforcement Learning)

  第一步的深度学习过程只是一个机械的模仿,此时的狗狗完全没有围棋胜负的概念,而在第二步中狗狗将通过引入胜负的概念进一步精炼第一步中学到的棋谱。这里有个细节,为了防止狗狗陷入只能对战特定对手的情况(也就是量化策略中常提到的过拟合),阿尔法狗需要与过去不同版本的自己对战。通过这一步训练的狗狗已经可以战胜笔者这样的业余选手了。

  第三步:降低搜索深度(第二次使用深度学习Deep Learning)

  正常情况下,狗狗需要下完整盘棋才知道胜负,但是过于深度的搜索会导致计算复杂度大大增加。所以,机智的DeepMind工程师又为狗狗增加了评估局势的能力,依然让狗狗自己和自己下棋,通过获取的盘面数据作为训练数据再次使用深度学习,构造了一个价值网络,用以预测当前的胜率。

  这样不需要走完整个棋局,就可以抛弃很多不合适的棋步,大大降低搜索深度。

  第四步:线上学习(蒙特卡罗搜索树MCTS)

  实战中最大的问题就是实战中的盘面大概率是训练中没有见过的。阿尔法狗最大优势就是可以不停的自己和自己下棋,这个优势同样可以运用于实战。对于当时的形势,阿尔法狗再度在有限的时间内尽量多的与自己进行对弈。但是时间有限,不可能尝试所有的可能性,因此使用蒙特卡罗搜索树,仅仅对于相对更有希望的分支进行搜索。蒙特卡罗搜索树也不是阿尔法狗的专利,之前的其他围棋软件和IBM的国际象棋软件“深蓝”也用了这个技术。

  现在我们可以来聊一聊如果阿尔法狗去炒A股

  阿尔法狗的运作原理我们已经基本清楚了。那么从狗狗的运作原理出发,我们来讨论下围棋与二级市场投资之间的差异:

  信息对称的问题

  DeepMind团队发表在Nature上的论文中,第一句就提到了“perfectinformation”。围棋信息完全对称,计算机只需要寻找未来有可能的最优解即可。而对于信息不对称的游戏(例如麻将),人可以通过做出特定的行为欺骗AI。二级市场更是一个信息高度不对称的环境,阿尔法狗或许可以在特定领域(如高频交易)中取得一些优势,但是称霸二级市场可以说还有很长的路要走。

  博弈的问题

  阿尔法狗真的是像我们看到的那样,在与对手博弈么?很可能并不是这样的。狗狗从头到尾一直假设对手就是自己,真正的对手是谁并不重要,狗狗一直沉浸在自己的世界里面下棋,仅仅是根据当时的形势制定最佳的策略。二级市场中,小资金或许可以忽略对市场的影响,当管理大规模资金的时候,不考虑资金的博弈是完全不可能长期获胜的,狗狗辛苦学习的市场数据会因为自己的参与而发生改变。

  思考能力的问题

  在第一步中,狗狗完全没有胜负的概念,只是看了大量棋谱,然后模仿专家行为而已。跟常规的深度学习用法完全不同,预测结果只是为了降低搜索空间的中间产物,帮助搜索最好的棋步。本质上,阿尔法狗并没有真正的思考能力,甚至不知道围棋的规则,只是一个高效的搜索器而已。

  所以说,狗狗并没有智能到逆天,投资者暂时还不用担心在二级市场被其割韭菜。二级市场的很多特性依然是人工智能无法解决的难题,比如阿尔法狗自己和自己交易难以模拟市场行为,从第二步开始就难以为继。失去了第二步加强学习的狗狗充其量只是个业余选手而已,暂时无法和专业投资者匹敌。

  当然,阿尔法狗的成功是毋庸置疑的,人工智能在量化投资上也已占有一席之地。前文提到,在局部投资领域中人工智能有无可比拟的优势,如果可以充分的利用人工智能的局部优势,尽管不足以让顶级交易员失业,打败一般交易员还是绰绰有余的。笔者针对非局部策略也已尝试了神经网络和加强学习策略,应用这类策略的产品取得了比我们之前管理的一般量化策略产品更为稳定的业绩。尽管这些尝试还非常初步,远远称不上智能更说不上打败顶级主观选手,但是事实证明,深度学习和强化学习策略可以大大提高量化对冲基金业绩的稳定性。

  人类的智慧无穷无尽,或许未来会有真正可以自我进化的人工智能出现。但就阿尔法狗而言,在了解它是怎么下围棋之后,我们可以说目前它还只是一只可爱的围棋狗狗而已,还远不用担心它会奴役人类。(本文参考了DeepMind团队2016年1月28日发表在Nature上的论文以及卡内基梅隆大学Shane Moon博士,密歇根大学梅俏竹博士和国立台湾大学Shou-De Lin博士的评论)

  欢迎关注上海宽投资产管理有限公司

责任编辑:戴明 SF006

相关阅读

0