AlphaGo Zero横空出世完全自学21天虐Master

qagli · 发表于 2017-10-19 14:08:38

AlphaGo Zero横空出世完全自学21天虐Master
今年5月乌镇围棋大赛时，DeepMind CEO Hassabis 表示，将在今年晚些时候公布战胜了柯洁的那版AlphaGo的技术细节。今天，这个承诺如约兑现，DeepMind在他们最新发表于Nature的一篇论文中，描述了迄今最强大的一版AlphaGo—— AlphaGo Zero 的技术细节。

　　AlphaGo Zero完全不依赖于人类数据，因此，这一系统的成功也是朝向人工智能研究长期以来的目标——创造出在没有人类输入的条件下，在最具挑战性的领域实现超越人类能力的算法——迈进的一大步。

　　作者在论文中写道，AlphaGo Zero 证明了即使在最具挑战的领域，纯强化学习的方法也是完全可行的：不需要人类的样例或指导，不提供基本规则以外的任何领域知识，使用强化学习能够实现超越人类的水平。此外，纯强化学习方法只花费额外很少的训练时间，但相比使用人类数据，实现了更好的渐进性能（asymptotic performance）。

　　在很多情况下，人类数据，尤其是专家数据，往往太过昂贵，或者根本无法获得。如果类似的技术可以应用到其他问题上，这些突破就有可能对社会产生积极的影响。

　　是的，你或许要说，AlphaGo已经在今年5月宣布退休，但AlphaGo的技术将永存，并进一步往前发展、进化。DeepMind已经完成围棋上的概念证明，接下来，就是用他们的强化学习改变世界。

　　这也是为什么接下来我们要介绍的这篇论文如此重要——它不仅是很多人期盼已久的技术报告，也是人工智能一个新的技术节点。在未来，它将得到很多引用，成为无数AI产业和服务的基础。

　　迄今最强大的围棋程序：不使用人类的知识

　　DeepMind这篇最新的Nature，有一个朴素的名字——《不使用人类知识掌握围棋》。
下图为AlphaGo Zero战胜master的第一局

		自动登录	找回密码
密码			注册

AlphaGo Zero横空出世 完全自学21天虐Master

AlphaGo Zero横空出世完全自学21天虐Master