fyw 发表于 2017-5-29 11:31:10

《AlphaGo-左右互搏50谱》(SGF版)




AlphaGo用深度卷积神经网络(CNN)来训练价值网络和策略网络。棋盘规模是(19×19),棋盘每个位置编码48种经验特征。把这些特征输入模型进行训练,经过层层卷积,更多隐含特征会被利用。
基于类似的卷积神经网络结构,AlphaGo先做策略学习(学习如何下子),再做价值学习(学习评估局面)。策略学习也分为两步。第一步是有监督学习,即“打谱”,学习既往的人类棋谱。第二步是强化学习,即“左右互搏”,通过程序的自我博弈来发现能提高胜率的策略。
说“左右互搏”(强化学习)。这是在打谱的基础上,让不同下法的程序之间相互博弈。强化学习的策略网络和有监督学习(打谱)的网络结构一样,也同样利用梯度下降的学习方法。区别在于用一个“回报”(赢棋是1,输棋是-1)来奖励那些会导致最终获胜的策略。


雪莲 发表于 2017-5-29 12:05:42

为此贴配上图,漂亮!{:6_186:}

luyuxin 发表于 2017-5-29 17:34:05

不知道谁能认真分析讲解

liuluo 发表于 2017-5-29 23:39:31

天色将晚 发表于 2017-5-30 07:37:32

谢谢兄台,有心了

qzzhrq 发表于 2017-5-30 09:48:54

很多下法目前的棋手理解不了,怎么给你讲解!

dragonliwenxu 发表于 2017-5-30 20:35:43

感谢分享,纯属收藏。

wzhdvd 发表于 2017-6-23 10:44:02

感谢大家的分享。

ocn500 发表于 2019-2-20 15:17:51

页: [1]
查看完整版本: 《AlphaGo-左右互搏50谱》(SGF版)