【AlphaZero登上《科学》封面:宣称可自学任何一种完美博弈游戏 完整论文首次发布】
不仅会下围棋,还自学成才横扫国际象棋和日本将棋的DeepMind AlphaZero,登上了最新一期《科学》杂志封面。DeepMind说,现在AlphaZero已经学会了三种不同的复杂棋类游戏,并且可能学会任何一种完美信息博弈的游戏,这“让我们对创建通用学习系统的使命充满信心”。
AlphaZero到底有多厉害?再总结一下。
在国际象棋中,AlphaZero训练4小时就超越了世界冠军程序Stockfish;
在日本将棋中,AlphaZero训练2小时就超越了世界冠军程序Elmo。
在围棋中,AlphaZero训练30小时就超越了与李世石对战的AlphaGo。
AlphaZero的算法和其他算法完全不同,它依靠的是深度神经网络、通用强化学习算法和通用树搜索算法。除了基本规则之外,它对这些棋类游戏一无所知。AlphaZero深度神经网络的参数,通过自我博弈的强化学习来训练,从随机初始化的参数开始。
随着时间推移,系统渐渐从输、赢以及平局里面,学会调整参数,让自己更懂得选择那些有利于赢下比赛的走法。
https://mp.weixin.qq.com/s/bwILNzKqE9b2Yn3-FZCKKQ?
无论你服不服,也只有发抖的份儿