《AlphaGo-左右互搏50谱》（SGF版）

fyw · 发表于 2017-5-29 11:31:10

AlphaGo用深度卷积神经网络（CNN）来训练价值网络和策略网络。棋盘规模是（19×19），棋盘每个位置编码48种经验特征。把这些特征输入模型进行训练，经过层层卷积，更多隐含特征会被利用。
基于类似的卷积神经网络结构，AlphaGo先做策略学习（学习如何下子），再做价值学习（学习评估局面）。策略学习也分为两步。第一步是有监督学习，即“打谱”，学习既往的人类棋谱。第二步是强化学习，即“左右互搏”，通过程序的自我博弈来发现能提高胜率的策略。
说“左右互搏”（强化学习）。这是在打谱的基础上，让不同下法的程序之间相互博弈。强化学习的策略网络和有监督学习（打谱）的网络结构一样，也同样利用梯度下降的学习方法。区别在于用一个“回报”（赢棋是1，输棋是-1）来奖励那些会导致最终获胜的策略。

AG vs AG 50局.zip (40.46 KB, 下载次数: 358, 售价: 9 枚锐币)

雪莲 · 发表于 2017-5-29 12:05:42

为此贴配上图，漂亮！

luyuxin · 发表于 2017-5-29 17:34:05

不知道谁能认真分析讲解

显示全部楼层 · 发表于 2017-5-29 23:39:31

提示: 作者被禁止或删除内容自动屏蔽

天色将晚 · 发表于 2017-5-30 07:37:32

谢谢兄台，有心了

qzzhrq · 发表于 2017-5-30 09:48:54

很多下法目前的棋手理解不了，怎么给你讲解！

dragonliwenxu · 发表于 2017-5-30 20:35:43

感谢分享，纯属收藏。

wzhdvd · 发表于 2017-6-23 10:44:02

感谢大家的分享。

显示全部楼层 · 发表于 2019-2-20 15:17:51

提示: 作者被禁止或删除内容自动屏蔽

		自动登录	找回密码
密码			注册

liuluo 该用户已被删除	发表于 2017-5-29 23:39:31 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
liuluo 该用户已被删除
	回复使用道具举报显身卡

ocn500 该用户已被删除	发表于 2019-2-20 15:17:51 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
ocn500 该用户已被删除
	回复使用道具举报显身卡

《AlphaGo-左右互搏50谱》（SGF版）

评分