AlphaGo Zero 3天走完千年棋史超越人类击败AlphaG

作者：谷歌推广
发表时间：2019-12-28 08:11
来源：迅龙网络

所有这些差异，都提高了系统的表现，使其更为普适。不过，是算法上的变化使得系统更为强大和高效。

　　这一程序的核心是一组连在一起形成人造神经网络的 “神经元”。对于棋局的每个回合，神经网络会观察棋子在棋盘上的位置，并推算接下来的棋步以及这些棋步让全盘获胜的概率。每次对弈后，它会更新神经网络，让棋艺更精进。虽然性能远胜于以前的版本，但AlphaGo Zero是一个更简单的程序，掌握棋法的速度更快，接受训练的数据更少，使用的电脑更小。席尔瓦表示，如果拥有更多的时间，AlphaGo Zero还能够自己学会围棋规则。

　　研究团队在《自然》杂志上发表的文章写道，一开始AlphaGo Zero的棋艺糟透了，后来它逐渐成为一名缺乏经验的业余棋手，最终进阶为围棋高手，能够走出极具战略性的棋步。这些进步仅花费了几天时间。最初10小时内它就发现了一个定式。随后不久它又领悟了一些棋法。三天后，AlphaGo Zero发现了人类专家正在研究的全新棋步。有趣的是，程序在发现更简单的棋步之前就早已掌握了一些复杂棋步。

仅仅自我对弈3天后，AlphaGo Zero就以100：0完胜了此前击败世界冠军李世石的AlphaGo版本。自我对弈40天后，AlphaGo Zero变得更为强大，超过了此前击败当今第一人柯洁的“大师”版AlphaGo。

　　AlphaGo Zero通过“强化学习”这一程序来积累技能。当AlphaGo Zero走出一步好棋，它更有可能获胜。若这步棋没走好，它输棋的概率变大了。

这些创造性的时刻给了我们信心：人工智能会成为人类智慧的增强器，帮助我们解决人类正在面临的一些严峻挑战。

这一进展标志着通用型AI发展的大一里程碑。除了下棋赢过人类，通用型AI能做更多事情。由于AlphaGo Zero能够从一无所知实现自学成才，如今其天赋可以在诸多现实问题上派上用场。

新版本的AlphaGo究竟有多厉害？打败李世石的AlphaGo用了3000万盘比赛作为训练数据，AlphaGo Zero用了490万盘比赛数据。经过3天的训练，AlphaGo Zero就以100：0的比分完胜对阵李世石的那版AlphaGo。

第三，AlphaGo Zero并不使用快速、随机的走子方法。在此前的版本中，AlphaGo用的是快速走子方法，来预测哪个玩家会从当前的局面中赢得比赛。相反，新版本依靠的是其高质量的神经网络来评估下棋的局势。

AlphaGo Zero相较前代还有几点明显的差别：

首先，AlphaGo Zero仅用棋盘上的黑白子作为输入，而前代则包括了小部分人工设计的特征输入。

通过数百万次自我对弈，AlphaGo从零开始掌握了围棋，在短短几天内就积累起了人类几千年才有的知识。AlphaGo Zero也发现了新的知识，发展出打破常规的策略和新招，与它在对战李世石和柯洁时创造的那些交相辉映，却又更胜一筹。

其次，AlphaGo Zero仅用了单一的神经网络。在此前的版本中，AlphaGo用到了“策略网络”来选择下一步棋的走法，以及使用“价值网络”来预测每一步棋后的赢家。而在新的版本中，这两个神经网络合二为一，从而让它能得到更高效的训练和评估。

上一篇：神速！谷歌推出Android 8.1系统首个预览版本下一篇：1999美元起！微软Surface Book 2开启预售

技术支持

AlphaGo Zero 3天走完千年棋史 超越人类 击败AlphaG

AlphaGo Zero 3天走完千年棋史超越人类击败AlphaG