在刚刚落下帷幕的中国乌镇围棋峰会上,谷歌 DeepMind 公司参赛的围棋程序AlphaGo Master(AlphaGo的升级版本)对战围棋排名世界第一的柯洁。柯洁首战AlphaGo Master,在经过4小时17分钟的激烈角力后,以四分之一子的劣势惜败;第二轮虽然柯洁盘中投子认负,但从前半场看,双方都有赢的几率,连DeepMind创始人戴密斯·哈萨比斯(Demis Hassabis)也称这是人机大战以来最势均力敌的一局,AlphaGo Master也在实时中多次给柯洁完美的评分;第三轮,经过3小时38分钟的激战,209手后柯洁再次盘中投子认负。
早在2015年10月,AlphaGo横空出世,一上来便以5:0完胜欧洲围棋冠军、职业选手樊麾二段;2016年3月,AlphaGo以总比分4:1战胜韩国李世石九段;2017年1月,AlphaGo的升级版Master在线上快棋比赛中连续击败了聂卫平九段、柯洁九段、朴廷桓九段、古力九段、周俊勋九段等多位名将,取得60:0的战绩;日前,AlphaGo的升级版AlphaGo Master又以3:0战胜世界排名第一的柯洁九段,取得辉煌的战绩。5月27日,AlphaGo被中国围棋协会授予职业围棋九段称号。同日,AlphaGo团队宣布AlphaGo退役。
2016年1月,AlphaGo背后的相关技术论文登上《自然》(Nature)封面。DeepMind创造性地将蒙特卡洛树搜索、强化学习、深度神经网络等结合在一起,打造出首次达到人类职业棋手水平的围棋程序。见图1和图2。
图1 AlphaGo的技术架构
图2 三个时期的AlphaGo实力对比
这次AlphaGo Master较之前的AlphaGo,给人最大的印象是棋力增强和棋速增快,从DeepMind披露出来的技术改进来看,主要有三点:(1)更高质量的对弈数据。依赖强化学习技术,AlphaGo Master更多地依靠自我对弈产生的高质量棋谱数据,从自己的搜索里学习,较之前的AlphaGo,它更少地依赖人类棋谱数据;(2)更高效的学习算法。AlphaGo Master虽然仍沿用策略网络决定走子行为、估值网络评估当前局面,但在更高质量的机器自我对弈数据上,DeepMind对训练策略网络和估值网络的训练算法进行了改进和强化;(3)更强大的计算硬件设备。以往AlphaGo使用的是谷歌云端多台机器分布式结构,而此次AlphaGo Master使用的是谷歌云提供的4块TPU单机,仅需原来十分之一的计算资源便能取得更好的结果。
赛后,DeepMind宣布今年下半年将发表论文,公开AlphaGo最新版本的所有技术细节和架构。AlphaGo被认为是DeepMind通往未来通用人工智能之路的重要一步。
所有评论仅代表网友意见