AlphaGo Zero:将革命进行到底!

阅读量:437
马少平

1019日,谷歌旗下人工智能公司DeepMind在《自然》(Nature)上发表论文称,最新版本的AlphaGo Zero完全抛弃了人类棋谱,实现了从零开始学习。

我一直认为,对于棋类问题,在蒙特卡洛树搜索的框架下,实现从零开始学习是可行的,也多次与别人讨论过这个问题。当今年初AlphaGo Master1推出时,我就曾预测其可能实现了从零开始学习,可惜根据DeepMind后来透露的消息,AlphaGo Master并没有完全抛弃人类棋谱,而是在以前系统的基础上,通过强化学习提高了系统的水平。虽然人类棋谱对AlphaGo的作用越来越弱,但是AlphaGo Master还是学习了人类棋谱,并没有实现“冷”启动。

根据DeepMind透露的消息,AlphaGo Zero不但抛弃了人类棋谱,实现了从零开始学习,还抛弃了以前使用的人类设计的特征,直接用棋盘上的黑白棋作为输入,除了围棋规则外,不使用人类的任何数据和知识,可以说是把人类抛弃得彻彻底底。仅通过3天训练,AlphaGo Zero就可以战胜AlphaGo Lee2,而经过40天的训练后,则可以打败AlphaGo Master

真是佩服DeepMind的这种“把革命进行到底”的作风,可以说是把计算机围棋做到了极致。

那么AlphaGo ZeroAlphaGo(在此表示以前的版本)都有哪些主要的差别呢?

1.在训练中不再依靠人类棋谱。AlphaGo先用人类棋谱进行训练,然后再通过自我互博的方法自我提高。而AlphaGo Zero直接采用自我互博的方式进行学习,在蒙特卡洛树搜索的框架下,一点点提高自己的水平。

2.不再使用人工设计的特征作为输入。在AlphaGo中,输入的是经过人工设计的特征,根据该点及其周围的棋的类型(黑棋、白棋、空白等)组成不同的输入模式,确定每个落子位置。而AlphaGo Zero则直接把棋盘上的黑白棋作为输入。这一点得益于其神经网络结构的变化,神经网络层数越深,提取特征的能力越强。

3.将策略网络和价值网络合二为一。在AlphaGo中,使用的策略网络和价值网络是分开训练的,但是两个网络的大部分结构是一样的,只是输出不同。AlphaGo Zero将这两个网络合并为一个,从输入层到中间几层是共用的,只是后边几层到输出层是分开的,并在损失函数中同时考虑了策略和价值两个部分。这样训练起来速度会更快。

会员登录后可下载全文

中国计算机学会(CCF)拥有《中国计算机学会通讯》(CCCF)所刊登内容的所有版权,未经CCF允许,不得转载本刊文字及照片,否则被视为侵权。对于侵权行为,CCF将追究其法律责任。
<<< 下一篇 无
读完这篇文章后,您心情如何?

作者介绍

马少平

  • 清华大学教授,中国人工智能学会副理事长,中国中文信息学会副理事长。
  • 研究方向:信息检索、模式识别与知识工程
  • msp@tsinghua.edu.cn