找回密码
 注册
搜索
查看: 557|回复: 1

[电脑数码] 【Nature重磅封面】Google人工智能击败欧洲围棋冠军,3月挑战世界冠军!

[复制链接]
发表于 2016-1-28 07:43 PM | 显示全部楼层 |阅读模式


【Nature重磅封面】Google人工智能击败欧洲围棋冠军,3月挑战世界冠军! 

2016-01-28 新智元

  新智元编译1

来源:Nature

参与:王嘉俊 王婉婷 张巨岩 李宏菲 林坤

特别感谢:@Man 陈雷 


围棋一直被视为人工智能最难破解的游戏。就在今天,《Nature》杂志以封面论文的形式,介绍了 Google DeepMind 开发的人工智能程序 AlphaGo,它击败了欧洲围棋冠军樊麾,并将在 3 月和世界冠军李世乭对战!Google 特地为此准备了 100 万美元奖金。


从国际象棋的经验看,1997 年人工智能第一次打败人类后,2006 年成为了人类在国际象棋的绝唱,自此之后人类没有战胜过最顶尖的人工智能国际象棋选手。在 AlphaGo 打败了欧洲围棋冠军后,世界冠军李世乭和 AlphaGo 的对弈,是否会成为人类在围棋领域的绝唱?




Nature 封面论文:Mastering the game of Go with deep neural networks and tree search(通过深度神经网络和搜索树,学会围棋游戏)


AlphaGo 给围棋带来了新方法,它背后主要的方法是 Value Networks(价值网络)和 Policy Networks(策略网络),其中 Value Networks 评估棋盘位置,Policy Networks 选择下棋步法。这些神经网络模型通过一种新的方法训练,结合人类专家比赛中学到的监督学习,以及在自己和自己下棋(Self-Play)中学到强化学习。这不需要任何前瞻式的 Lookahead Search,神经网络玩围棋游戏的能力,就达到了最先进的蒙特卡洛树搜索算法的级别(这种算法模拟了上千种随机自己和自己下棋的结果)。我们也引入了一种新搜索算法,这种算法将蒙特卡洛模拟和价值、策略网络结合起来。


通过这种搜索算法,AlphaGo 在和其他围棋程序比赛的胜率达到了 99.8%,并以 5:0 的比分击败了人类欧洲围棋冠军樊麾。这是电脑程序第一次在全尺寸(19X19)的棋盘上击败了人类专业选手,这一成果过去认为至少需要 10 年才能实现。


欧洲围棋冠军樊麾:2005 年樊麾被正式聘任为法国围棋队和少年围棋队的总教练,那一年的他才 24 岁。他是 2013、2014 和 2015 欧洲围棋赛冠军。


通过将 Value Networks、Policy Networks 与树搜索结合起来,AlphaGo 达到了专业围棋水准,让我们看到了希望:在其他看起来无法完成的领域中,AI 也可以达到人类级别的表现!


DeepMind 团队对围棋项目的介绍(新智元翻译)




论文简介


所有完全信息(perfect information)博弈都有一个最优值函数(optimal value function),,它决定了在所有参与博弈的玩家都做出了完美表现的情况下,博弈的结果是什么:无论你在棋盘的哪个位置落子(或者说是状态s)。这些博弈游戏是可能通过在含有大约个可能行动序列(其中b是博弈的宽度,也就是在每个位置能够移动的步数,而d是博弈的深度)的搜索树(search tree)上反复计算最优值函数来解决的。在象棋()和围棋之类()的大型博弈游戏中,穷尽地搜索是不合适的,但是有效搜索空间是可以通过2种普遍规则得到降低的。首先,搜索的深度可能通过位置估计(position evaluation)来降低:在状态s时截取搜索树,将随后的子树部分(subtree)替换为根据状态s来预测结果的近似的值函数。这种方法使程序在象棋、跳棋、翻转棋(Othello)的游戏中表现超越了人类,但人们认为它无法应用于围棋,因为围棋极其复杂。其次,搜索的宽度可能通过从策略概率——一种在位置s时表示出所有可能的行动的概率分布——中抽样行动来降低。比如,蒙特卡洛法通过从策略概率p中为博弈游戏双方抽样长序列的行动来让搜索达到深度的极限、没有任何分支树。将这些模拟结果进行平均,能够提供有效的位置估计,让程序在西洋双陆棋(backgammon)和拼字棋(Scrabble)的游戏中展现出超越人类的表现,在围棋方面也能达到低级业余爱好者水平。


译者注:围棋为何如此复杂?




围棋有3^361 种局面,而可观测到的宇宙,原子数量才10^80。


围棋难的地方在于它的估值函数非常不平滑,差一个子盘面就可能天翻地覆,同时状态空间大,也没有全局的结构。这两点加起来,迫使目前计算机只能用穷举法并且因此进展缓慢。但人能下得好,能在几百个选择中知道哪几个位置值得考虑,说明它的估值函数是有规律的。这些规律远远不是几条简单公式所能概括,但所需的信息量还是要比状态空间本身的数目要少得多(得多)。一句话,穷举状态并不是最终目标,就算以后超超级计算机能做到这一点,也不能说解决了人工智能。只有找到能学出规律的学习算法,才是解决问题的根本手段。By 田渊栋


蒙特卡洛树搜索(MCTS)使用蒙特卡洛算法的模拟结果来估算一个搜索树中每一个状态(state)的值。随着进行了越来越多的模拟,搜索树会变得越来越庞大,而相关的值也会变得越来越精确。通过选取值更高的子树,用于选择行动的策略概率在搜索的过程中会一直随着时间而有所改进。目前最强大的围棋程序都是基于蒙特卡洛树搜索的,通过配置经训练后用于预测人类棋手行动的策略概率进行增强。这些策略概率用于将搜索范围缩小到一组概率很高的行动、以及在模拟中抽样行动。这种方法已经取得了高级业余爱好者水平的表现。然而,先前的工作仅局限于基于输入特征(input features)的线性组合的粗浅策略概率和值函数。


近期,深度卷积神经网络在视觉领域有很多前所未有的表现:例如,图像分类、脸部识别、玩雅特丽游戏等。他们使用很多层神经元,每个被安排在交叠的区块(Tiles)中来构建越来越抽象和本地化的图片表示。我们在围棋游戏中采用了一个相似的构架。我们用19X19的图像来传递棋盘位置,使用卷积层来构建位置的表示。我们使用这些神经网络来减少搜索树的有效深度和宽度(breadth):使用一个Value Networks(价值网络)来估算位置,使用Policy Network(策略网络)来对动作进行抽样。



我们使用由若干机器学习阶段(Stages)构成的流水线来训练神经网络(例1)。我们直接使用人类专家的步法来训练监督学习策略网络pσ。这为快速而有效的学习更新(Learning Updates)提供了高质量的梯度和即时反馈。与之前的工作相似,我们也训练了一个快速策略网络pπ,它可以快速地在模拟中对动作进行抽样。接下来,我们训练了强化学习(RL)策略网络pρ,这个网络通过优化“自己对抗自己”的最终结果来改善监督学习策略网络。这将策略调整到赢棋这一正确目标上,而非让预测精确率最大。最后,我们训练了价值网络vθ,它可以预测出RL策略网络通过模拟“自己对抗自己”而得出的策略中哪种是最佳策略。我们的程序AlphaGo高效地结合将策略和价值网络与蒙特卡洛树搜索结合起来。


实现过程 


为了评估AlphaGo,我们在诸多AlphaGo变体和一些其他围棋程序中进行了内部比赛,这其中包括了最强大的商业程序Crazy Stone和Zen,还有最大的开源程序Pachi和Fuego。所有这些程序都是基于高性能MCTS算法。此外,比赛也包含了开源程序GnuGo,这个程序使用了在MCTS之前出现的最先进的方法。规定所有程序每次落子有5秒的计算时间。


比赛的结果表明单机AlphaGo领先任何之前的围棋程序很多段位,取得了495局比赛中494次胜利的成绩(99.8%)。为了给AlphaGo提出更大的挑战,我们也让AlphaGo让四子(让子,即对手自由落子)来比赛;AlphaGo让子竞赛中对阵Crazy Stone、Zen和Pachi时分别取得了77%、86%和99%的成绩。分布式AlphaGo明显更强大,对阵单机AlphaGo取得77%的成绩,完胜其他程序。




详解:AlphaGo 如何在对弈中选择步法


黑色棋子代表AlphaGo正处于下棋状态,对于下面的每一个统计,橙色圆圈代表的是最大值所处的位置。


a.用价值网络(value network)估测根节点s处的所有子节点s’,展示了几个最大的获胜概率估计值。


b.计算树中从根节点s处伸出来的边(其中每条边用(s,a)来表示)的动作值Q(s,a),仅当(λ=0)时,取价值网络估值的平均值。


c.计算了根位置处伸出的边的动作值Q(s,a),仅当(λ=1)时,取模拟估计值的平均值。


d.直接从SL策略网络中得出的落子概率,(如果这个概率高于0.1%)则结果以百分比形式表示出来。


e.计算了在模拟过程中,从根节点选出的某个动作的频率百分比。


f.表示来自于AlphaGo搜索树的主要变异性(principal variation)(最大访问数路径),移动路径以序号形式呈现出来。


红色圆圈表示AlphaGo选择的步法;白方格表示樊麾作出的回应;樊麾赛后评论说:他特别欣赏AlphaGo预测的(标记为1)的步法。


AlphaGo与樊麾的比赛结果


以编号形式展示了AlphaGo和樊麾进行围棋比赛时各自的落子顺序。棋盘下方成对放置的棋子表示了相同交叉点处的重复落子。每对中的第一个棋子上的数字表示了何时发生重复落子,而落子位置由第二个棋子上的数字决定。(见补充信息 Supplementary Information)



第一盘:AlphaGo 以 2 目半获胜

第二盘:AlphaGo 中盘胜

第三盘:AlphaGo 中盘胜



第四盘:AlphaGo 中盘胜

第五盘:AlphaGo 中盘胜


最终,我们评估了分布式AlphaGo与樊麾的比赛,他是专业2段位选手,2013、14和15年欧洲围棋赛冠军。在2015年10月5日到9日,AlphaGo和樊麾正式比赛了5局。AlphaGo全部获胜。这是第一次一个电脑围棋程序,在没有让子、全尺寸(19X19)的情况下击败人类专业选手,这一成果过去认为至少需要 10 年才能实现。


讨论


在我们的工作中,我们开发了围棋程序,它将深度神经网络和树搜索结合起来。这个程序可以达到最强的人类选手的表现,因此完成了一个人工智能“伟大挑战”。我们也为围棋首创了高效步法选择和位置评估函数,这是通过具有创新性地将监督和强化学习两种方法结合起来从而训练深度神经网络。我们也引入了一个新搜索算法,这一算法成功的整合了神经网络评估和蒙特卡洛树模拟算法。我们的程序AlphaGo在高性能树搜索引擎中从一定规模上将这些成分整合在一起。

 

在和樊麾的比赛中,AlphaGo在评估位置方面要比深蓝与Kasparov4比赛时所评估的位置少几千倍,这是由于我们使用了策略网络更智能地选择那些位置,还使用了价值网络更精确地评估它们,而价值网络更接近人类的下棋方式。另外,深蓝依靠手工设计评估方程,而AlphaGo的神经网络是直接通过纯比赛数据训练,也使用了通用监督和强化学习方法。

 

围棋代表了很多人工智能所面临的困难:具有挑战性的决策制定任务、难以破解的查找空间问题和优化解决方案如此复杂以至于用一个策略或价值函数几乎无法直接得出。之前在电脑围棋方面的主要突破是引入MCTS,这导致了很多其他领域的相应进步:例如,通用博弈,经典的计划问题,计划只有部分可观测问题、日程安排问题和约束满足问题。通过将策略和价值网络与树搜索结合起来,AlphaGo终于达到了专业围棋水准,让我们看到了希望:在其他看起来无法完成的领域中,AI也可以达到人类级别的表现。


新智元特约专家评论


微软亚洲工程院院长刘震在新智元机器学习群里的评论:我认为AI技术征服人类不需要太长时间,可能就发生在今年,AI技术征服人类。Google的AlphaGo在围棋比赛中以5:0打败了欧洲围棋冠军。下一次比赛:是在3月与李世石九段的围棋比赛,为此谷歌拿出100万美元作为这次比赛的奖励。


I thought AI won't beat human in Go for a long time...  It may be this year!  Google's AlphaGo beats European professional champion 5:0; next on deck: 李世石九段 in March for $1M Google prize.



http://mmbiz.qpic.cn/mmbiz/UicQ7 ... bSgCQ/0?wx_fmt=jpeg); background-size: cover; max-width: 100% !important; box-sizing: border-box !important; background-position: 50% 50%; background-repeat: no-repeat no-repeat;">
陈雷

万同科技CEO,留德MBA,连续创业者,现致力于人工智能+围棋的互联网服务,围棋网络9段


对于人而言,围棋竞技是智力、心理和灵性三个维度的综合比拼。根据Deep Mind现有的计算机围棋解决方案描述,可以判断程序在智力维度取得了很大的进展。在智力方面,计算机围棋研究领域中要解决的核心问题是如何对盘面做形势判断,即专家评估系统的解决方案,专家评估系统能力的显著提高会导致围棋AI水准的本质提升。Deep Mind的计算机围棋解决方案其实可归结为精确的专家评估系统(value network)、基于海量数据的深度神经网络(policy network),及传统的人工智能方法蒙特卡洛树搜索的组合。有理由相信这个程序已经达到与标准业余6段棋手或中国职业棋手等级分200位之后的棋手实力相当的地步。从经验上看,由于缺少心理和灵性维度的突破,AlphaGo战胜人类最顶尖的围棋高手尚需时日。


关于 Google DeepMind


Google DeepMind 是一家英国人工智能公司,创立于2010年,名为DeepMind Technologies,2014年被谷歌收购,更名为Google DeepMind。


这家公司由Demis Hassabis、Shane Legg和Mustafa Suleyman创立。公司目标是“解决智能”,他们尝试通过合并机器学习最好的方法和系统神经科学来构建强大的通用学习算法。他们试图形式化智能,进而不仅在机器上实现它,还要理解人类大脑。当前公司的焦点在于研究能玩游戏的电脑系统,研究的游戏范围很广,从策略型游戏围棋到电玩游戏。


创始人介绍


Demis Hassabis,人工智能研究人员,神经科学家,电脑游戏设计者,毕业于剑桥大学,并在伦敦大学获得PhD,研究兴趣:机器学习、神经科学。


Shane Legg,计算学习研究人员,DeepMind创始人,研究兴趣:人工智能、神经网络、人工进化、强化学习和学习理论。


Mustafa Suleyman,英国企业家,DeepMind Technologies的共同创始人和产品运营主管,同时也是Reos Partners的共同创始人,被谷歌收购后,他成为Google DeepMind的应用AI部门主管。


 楼主| 发表于 2016-1-28 09:40 PM | 显示全部楼层
华尔街日报   2016年 01月 28日 16:36
人工智能完胜欧洲围棋冠军 里程碑式突破引担忧

0.jpg
图片来源:LUCAS VALLECILLOS/VW PICS/ZUMA PRESS

研究人员周三表示,人工智能领域实现一项重大突破,他们开发的一款软件程序能够通过自学击败人类围棋高手。能否战胜围棋高手历来被视为人工智能领域的一个里程碑式挑战。

谷歌(Google)母公司Alphabet Inc. (GOOG)旗下子公司DeepMind称,这款名为“AlphaGo”的人工智能程序近期在DeepMind伦敦总部与欧洲围棋冠军樊麾使用全棋盘进行了五局比赛,取得全胜战绩。之前,人工智能程序只在非正式的小棋盘比赛中赢过职业棋手。

早在1997年计算机就击败了国际象棋世界冠军。不过,围棋更难挑战,因为棋子的走法要多得多──这种在19x19棋盘上展开的对弈,单是开局就有361种可能的走法。该领域一直是人工智能研究的目标,因为要精通围棋,需要具备模式识别和直觉判断等更类似于人类思维的技术。

这一重大突破刊登在周三的《自然》(Nature)杂志上,令人工智能专家印象深刻,也再度引发争论,即是否应该对那些具备类似人类自我学习能力的计算机程序施加限制。

《自然》编辑舒瓦尔(Tanguy Chouard)称,这令人不禁同情被击败的可怜的人类棋手。舒瓦尔监督了AlphaGo与樊麾之间的比赛。

AlphaGo使用了两个“深度神经网络”(deep neural network)电脑程序,这些电脑程序有数百万个连接,松散地模仿人脑的结构。这种方法近年来在人工智能领域取得了多项突破性进展,包括在识别图像中的物体方面比人脑的一致性更高的电脑。

AlphaGo的第一个网络被示范了真人下的约3,000万步棋,教会它下一步棋该怎么走。真人在这段“有监督学习”(supervised learning)期间进行指导训练。

第二个网络与自己对弈了数千局,学会了在没有真人帮助的情况下评估棋盘形势,估计每一步棋最终赢得比赛的可能性。

后一种无监督的方法更加先进。参与AlphaGo研发的DeepMind研究人员西尔弗(David Silver)称,这个系统学会了自己发现新的策略。

库隆(Remi Coulom)说,他原本以为可能需要再花10年时间计算机才能打败顶级棋手。库隆花费10年时间研发出的围棋计算机是全球最聪明的围棋计算机之一。

库隆称,多年以来,人们一直说围棋很特别,因为机器在围棋比赛中无法战胜人类,但现在情况不同了。

Enlitic Inc.首席执行长霍华德(Jeremy Howard)称,在国际象棋中,计算机需要在有限的选项中选出最好的招数,但在围棋中,可能性多得无法计算,因此系统必须要分析局势,这在现实世界中是一种更为有用的能力。Enlitic利用人工智能技术解读医学影像。

AlphaGo的创造者称,除了下围棋之外,AlphaGo也可以用来解决其他问题。相比之下,国际商业机器公司(International Business Machines, 简称IBM)研发的深蓝(Deep Blue)只能下象棋,并在1997年打败了象棋大师卡斯帕罗夫(Garry Kasparov)。

不过专家提醒称,AlphaGo仍远远算不上一个高水平、可以解决几乎所有问题的“通用”人工智能程序,而后者是研究人员数年来追求的目标。

DeepMind首席执行长Demis Hassabis表示,受AlphaGo启发而开发出来的产品和服务可能会在一两年内开始出现。其中可能包括更先进的基于智能手机的个人助理,以及改进版的医疗诊断程序。谷歌此前已经推出了智能个人助理。

这一进展再次引发了人们对人工智能可能用途和影响的担忧。麻省理工学院(Massachusetts Institute of Technology)数字经济项目联合创始人迈克菲(Andrew McAfee)表示,能够像真人一样对洞察力、模式匹配和直觉力进行组合的成效(如AlphaGo)有取代高技能工人的潜力。

他表示,放射科医生、税务顾问、客服代表,这些都是由有才干、训练有素、经验丰富的人进行的模式匹配操作。他说,刚刚输给DeepMind的程序的围棋高手不就是这样的一个人吗?

Hassabis表示,DeepMind非常仔细地考虑了如何符合道德地使用并负责任地部署该技术。2014年DeepMind被收购之际,其创始人要求谷歌同意不将该技术用于军事目的。Hassabis补充说,谷歌已设立了一个道德委员会,以确保相关技术造福多数人,而不是少数人。

Alistair Barr / Jack Nicas
回复 鲜花 鸡蛋

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|www.hutong9.net

GMT-5, 2025-9-11 11:59 AM , Processed in 0.047460 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表