首页 >> 语言学 >> 图片新闻
详析阿尔法围棋“三头六臂”
2016年03月11日 08:10 来源:科技日报 作者:高博 字号

内容摘要:3月10日,阿尔法围棋”再次战胜李世石。机器杀伐决断,只凭三种武器:神经网络、蒙特卡洛算法和评估局面。阿尔法围棋”掀起的机器风暴,将从纹枰刮向人间。

关键词:围棋;三头六臂;评估;蒙特卡洛;神经网络

作者简介:

  3月10日,“阿尔法围棋”再次战胜李世石。无论执黑执白,李世石均无还手之力。有人欣喜,有人哀叹,有人惊掉下巴。机器杀伐决断,只凭三种武器:神经网络、蒙特卡洛算法和评估局面。

  首先,“阿尔法围棋”是一团神经网络,不是一本大全棋谱。它下棋不是翻谱。跟人一样靠计算和直觉,但它“少年老成”,直觉更准。

  职业棋手有种“棋感”,那是下了上万盘棋后,大脑见多识广,感觉到某一手的优劣,尽管说不出道理。画画,骑车,拿榔头敲钉子,都是凭感觉,“唯技熟耳”。有个极端的例子,中国有种专业,可以辨认刚孵蛋出来的小鸡雄雌,他们说不出怎么辨认,凭感觉去选,基本没错。

  临帖一万次,有了书法感觉;打谱一万遍就有了棋感。为什么?大脑=神经细胞+神经突触,突触是大脑的电线,经常“过电”的突触会更强壮。小孩子的大脑正是如此学习:伴随成功的快乐,刚用过的神经突触就会加强,习惯就养成了。

  早在冯·诺依曼时代,科学家就想到用电脑模拟大脑:计算单元+通路,通路的强度可调节。虚拟大脑一次次接受任务,每次调用不同的神经通路去做,如果任务成功,刚用过的通路强度会被提高,反之强度降低。

  “阿尔法围棋”复制了小孩子的学习过程,成功了就调高相关通路强度,失败了就调低,使神经网络在自我对弈百万盘(用不同风格)后调整到最优。

  “阿尔法围棋”的“肉身”是神经网络;在此基础上,它有两套心法:蒙特卡洛算法和评估局面。

  蒙特卡洛算法很好理解,很多棋类软件都这么干。你吩咐狗熊去玉米田里掰一个最大的棒子,但玉米田太大,累死了也走不完。狗熊想了个主意:根据经验选十来个常出大棒子的地方,仔细找一遍。最后掰的大棒子,就算不是整块田里最大的,也差不离。这就是蒙特卡洛式的狗熊。

  围棋盘是19乘19个位置,以前大家认为天文数字的可能性,电脑算不过来的。但蒙特卡洛算法只选取一小部分有希望的点来考虑。“阿尔法围棋”跟之前的“ZEN”等围棋软件都是如此,倒不出奇。

分享到: 0 转载请注明来源:中国社会科学网 (责编:王婷婷)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
瓦力.jpg
瓦力.jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们