开源ELF OpenGo

田渊栋 2018年5月3日 02:03

我们最近改进了ELF框架,并且在上面实现了DeepMind的AlphaGoZero及AlphaZero的算法。用两千块GPU训练约两到三周后得到的围棋AI,基本上超过了强职业的水平。我们和韩国棋院合作进行了一次测试,给这个AI单卡每步50秒搜索时间(每步搜索8万个局面),给人类棋手任意长时间思考,结果AI以14比0完胜。参与测试的棋手包括金志锡,申真谞,朴永训及崔哲瀚,在这里我们非常感谢他们的合作,大家都很尽力,一些棋局下了三四个小时极其精彩。这14局棋谱中的12局已经公开(有2局应棋手们的要求不公开)。

另外我们也和现在著名的LeelaZero比较了下。我们采用了LeelaZero除ponder外的缺省配置,及4月25日的公开权重(192x15, 158603eb ),结果我们的AI以200比0获胜。在此我们非常感谢Leela团队的工作,对于他们的开源精神,我们表示由衷的敬意。

这次我们将训练代码,测试代码及训练出来的模型(224x20)全部公开,首要目的是贯彻我们一直以来坚持的开源方针,让AI为全世界服务。其次是对于AlphaGoZero及AlphaZero这样非常优秀的算法,我们想要提供一个可重复的参考实现,让全球的研究者们能在这上面继续改进,充分发挥自己的创造力。最后是借此机会推广一下我们的ELF平台和PyTorch深度学习框架,希望更多的人能使用和完善它。

代码见: https://github.com/pytorch/ELF

模型见: pytorch/ELF

与职业棋手的12局对局: pytorch/ELF

英文blog见: https://research.fb.com/facebook-open-sources-elf-opengo/

感谢大家的支持!

田渊栋,龚渠成&马子嫯(Jerry Ma), Shubho Sengupta, 陈卓远,Larry Zitnick


====================

Update: LeelaZero 这边我们确实用的是缺省配置,但“约一分钟一步”是不对的,LeelaZero在缺省配置下一开始会50秒一步,但除非是关键步,之后会用比较少的时间和搜索次数。所以我们这边在和LZ协商重跑一次测试。

Update #2: 新测试结果是ELF OpenGo 198-2 LeelaZero (大家都用足50秒一步)。我们在跑1000局的比赛,届时会把所有的棋谱全都放出。

相关阅读
  • 推荐阅读
  • 文章导航