新闻回顾
3月12日,谷歌人工智能AlphaGo与韩国棋手李世石进行了第三场较量,最终AlphaGo战胜李世石,连续取得三场胜利。目前总比分0:3,总共五场比赛的赛制规则,李世石已经无缘一百万美元的奖金。中国棋手古力赛后表示,目前五个顶级中日韩的九段一起下棋,才有可能战胜目前版本的AlphaGo。此后的比赛已经几乎没有悬念了,因为AlphaGo已经战胜了李世乭,其自诊断、自学习能力只会越来越强,智能数据库也越来越庞大和精准。
AlphaGo是什么?AlphaGo为何会赢?
为什么AlphaGo能够在与人类最顶级选手的围棋对弈中取得胜利呢?AlphaGo通过两个全联接的13层神经网络合作来下棋:一个是策略网络(Policy Network),一个是价值网络(Value network)。策略网络负责选择下一步的走法,价值网络负责评估盘面的优劣。策略网络能够学习人类高手的棋局(目前已经学习了上百万盘KGS上人类高手之间的对弈),这种学习是为了习得人类高手对棋局的判断能力,即在不同情况下,人类高手是如何选择下一步的。策略网络还能够通过强化学习的方式,自我海量下棋,不断优化修正习得的人类棋法。为了加快下棋速度,AlphaGo还能够学习在不观察整体局面的情况下,从局部选择最佳落子点的方式。价值网络则是通过两个最强的策略网络之间的海量对局,学习出如何评估当前局势的好坏。
在对弈的时候,策略网络选择出所有可能的落子点,然后利用蒙特卡洛树搜索方法展开对弈并评估哪种下法更加值得深入探索。接着价值网络会评估每种走法的形势并对策略网络进行建议。最后由两个网络共同确定最终的落子位置。
AlphaGo不仅是遵循人工规则的“专家”系统,它还通过“机器学习”自行掌握如何赢得围棋比赛。谷歌方面希望运用这些技术解决现实社会最严峻、最紧迫的问题——从气候建模到复杂的灾难分析。
在具体的机器训练上,决策网络的方式是输入人类围棋专家的比赛,到系统可以预测57%人类行动为止,此前最好成绩是44%。此后AlphaGo通过在神 经网络内部进行比赛的方式(可以简单理解成和自己下棋),开始学习自主探索新的围棋策略。目前AlphaGo的决策网络可以击败大多数具有庞大搜寻树的最 先进的围棋程序。
Google DeepMind首席执行官、联合创始人Demis Hassabis表示:“围棋是深刻而复杂的游戏。为了击败一名职业棋手,我们不能只靠模仿,而是自主发现新的战略规则。因为方法是通用的,我们希望有一天可以将其运用于解决社会最棘手和最紧迫的问题上。不论我们在三月份能否赢李世石,这场比赛都一定能够激发世界各地对围棋的兴趣。”wuli.in
实际上,目前AlphaGo已经成为最优秀的人工智能围棋程序。在与其他程序的对弈中,AlphaGo用一台机器就取得了500场的胜利,甚至有过 让对手4手后获胜的纪录。去年10月5日-10月9日,谷歌安排AlphaGo与欧洲围棋冠军Fan Hui(樊麾:法国国家围棋队总教练)闭门比赛,谷歌以5-0取胜。
此次比赛的李世石是近10年来获得世界第一头衔最多的棋手,谷歌为此提供了100万美元作为奖金。
AlphaGo的胜利给2016高考生的暗示
AlphaGo每一次对决,都是自诊断、自学习的成长过程,都是对自己数据库与最优函数寻值的升级。下棋次数越多,特别是遇到的高手越多,能力越强大。