找回密码
 注册
搜索
查看: 1320|回复: 9

[历史] 连载 | AI传奇

[复制链接]
发表于 2017-5-7 02:21 PM | 显示全部楼层 |阅读模式


重磅 |《环球科学》总编陈宗周推出专栏“AI传奇”,评述AI江湖60年 

 2017-04-24 陈宗周环球科学ScientificAmerican

发明个人电脑与互联网,是人类的两大传奇。现在,AI正在成为我们亲手缔造的又一个传奇。正像蒸汽机开启了工业革命时代一样,AI也将把人类社会带入新世纪。


从本周开始,本公众号将推出《环球科学》总编、社长陈宗周先生撰写的系列专栏“AI传奇”,既回顾AI在过去60年走过的风风雨雨,也前瞻AI将如何塑造人类社会的未来。本文是“AI传奇”的第一回。


对专栏有任何建议和意见、对AI的历史和发展有任何问题,欢迎在评论区留言,陈宗周先生会亲自回复一些重要的问题,并有可能通过直播的方式,与读者朋友一起讨论AI的历史与未来。

陈宗周是《环球科学》杂志社社长,《电脑报》创始人。



旷世棋局的幕后英雄


未来的历史学家,一定会浓墨重彩书写2016年,这是AI(人工智能)走进人类社会里程碑式的一年。


激动人心的故事发生在春天。3月9日,北京时间12时, 韩国首尔四季酒店,一间高度保密的围棋对局室里,韩国世界围棋冠军李世石在棋盘上落下一枚黑子,被称为“史诗般大战”的人机围棋比赛揭开帷幕。


棋盘对面,坐着华裔程序员黄士杰(Aja Huang),他是DeepMind公司围棋程序AlphaGo的首席工程师。这一天,他只是代表AlphaGo在棋盘上布子,机器才是今天李世石的棋局对手。

 

AlphaGo之父戴密斯·哈萨比斯(左)和韩国世界围棋冠军李世石


对局室外, DeepMind创始人戴密斯·哈萨比斯(Demis Hassabis)也在现场。这位被称为AlphaGo之父的传奇人物,他的出身与经历都显得非常与众不同—— 1976年出生于伦敦,父亲却是塞浦路斯希腊人,母亲是新加坡华人;而他一身兼有游戏开发者、认知神经学科学家、人工智能企业家等多重角色;更叫人称奇的是,他五次夺得世界智力运动会“智力五项”(Pentamind)项目的冠军;他还是国际象棋大师,十三岁时的水平,已经在全球十四岁以下选手中排名第二。


今天名满天下的DeepMind,正是由哈萨比斯2010年在伦敦大学学院(UCL)初创。哈萨比斯的目标是,开发出像人脑一样自主学习并掌握技能的通用学习机。这样的目标,一代一代AI科学家一直梦想却终未实现。


哈萨比斯志向远大,行事却十分低调,以至我2012年冬天访问伦敦闹市区的UCL时,匆匆间竟然没有发现他和他的公司,很遗憾地失之交臂,其实他那时就隐身在附近的滚滚红尘中。


但是,哈萨比斯的才华与AI雄心毕竟难以遮掩,特斯拉创始人伊隆·马斯克(Elon Musk)发现了哈萨比斯并投资了DeepMind,还向Google推荐。2013年12月,在旧金山北部滑雪胜地太皓湖之滨,在一次重要的机器学习会议上,DeepMind演示了一款AI软件。令人称奇的是,软件居然自己学会了家用游戏机鼻祖 “雅达利”(Atari)的三款经典游戏《Pong》、《Breakout》和《Enduro》玩法,水平甚至超过人类专业玩家。机器从零开始自己学会玩游戏并成为专业高手,这是之前从未实现过的高度复杂任务,DeepMind让在场AI专家感到震惊。太皓湖演示之后一个月,Google宣布以4亿英镑天价全资收购DeepMind。从此,它一飞冲天。


由于DeepMind的这种背景,正像李世石国籍是韩国一样,机器AlphaGo一方也挂有一面蓝底红色米字国旗,表示它也有自己的国籍——英国。就这样,DeepMind及AlphaGo在全球媒体的聚焦中来到赛场。



人机博弈之战


堪称史诗的大赛,必定会有非凡的理由。棋类博弈游戏一向被认为是智能的典型表现。德国诗人歌德说:“象棋是人类智慧的试金石”,这方试金石,在AI发展的漫长历程中,也常常被用来考验机器的智慧。艰难考验中,AI已经越过了两道重要关口。


1994年,加拿大艾伯塔大学的乔纳森·谢弗等打造的电脑棋手“奇努克”(Chinook)一举夺取西洋跳棋世界冠军,这一战被载入吉尼斯世界纪录。1997年,IBM公司的“深蓝”超级电脑战胜加里·卡斯帕罗夫,这位俄罗斯人本身就是一个奇迹,二十年称霸国际象棋棋坛,被誉为人类有史以来最伟大的棋手。传奇棋手败于机器,这轰动性的结果广泛而长久传播,我们至今耳熟能详。

 

1997年,“深蓝”超级电脑战胜国际象棋传奇人物加里·卡斯帕罗夫


不过,AI的这些辉煌战绩还不足以动摇人类自信心,因为还有围棋这道天堑在前面守候。围棋的复杂度,一向被认为是其他棋类不可比拟、机器智能难以逾越的关口。


小小棋盘上,围棋却复杂得难以描述。如果仅看空间状态复杂度,围棋棋盘有19X19=361个落子点,每个点可以有黑百空三种状态,状态数量理论上为3361≈ 10172种,而国际象棋只有1046种。要理解10172这样的天文数字有多么巨大,可能需要一点想象力,因为人类目前能观察到的宇宙中所有原子的总数,不过只有1080左右。


围棋变化状态这种事实上的不可穷尽性,使源于中国的古老博弈游戏围棋具有无比魅力,成为人类引为自豪的一种高级智能活动。直到前几年还有专家乐观预测,AI要在围棋领域超越人类,至少还需要几十年的漫长光景。


即使AlphaGo在前一年战胜了三度欧洲围棋冠军樊麾六段,挑战书已扔到李世石面前,赛前舆论仍然一边倒地乐观——这次代表人类出马的是围棋奇才李世石九段,轻取AlphaGo应该在情理之中。微弱的杂音出现在比赛前一天,AlphaGo的开发人员接受采访,仿佛不经意地透露他们的测试,测试中李世石取胜的概率为零。这样的声音,在人类乐观情绪的汪洋大海之中,甚至激荡不起一丝涟漪。


人机围棋世纪大战的结果我们已经知道,AlphaGo摧枯拉朽,连下三局让骄傲的李世石痛苦地吞下苦果,比赛已经事实上结束。而最后的4:1战绩,甚至被认为是AlphaGo为人类留下的最后一点颜面。这点颜面,在2016年的最后几天被彻底撕下。在网络围棋上,一位披上Master(大师)马甲的超人,以26:0的从未有过纪录横扫世界最顶尖棋手。跨入新年,Master继续横扫棋坛,连胜纪录突破60盘,唯一的一盘和棋,还是因为网络断线。


终于,我们知道Master其实是新版AlphaGo重回江湖。人类惊呼,同时也彻底服气,对重新战胜AlphaGo们,已不复有过去的自豪与骄傲。



AI风潮袭来


AlphaGo的胜利,当然不能被视为AI战胜了人类智能,因为它本身就是人类智慧的结晶。但这场胜利,为AI的艰难历程立下一块重要的里程碑,新的时代开启了。


划时代的事件,一定有划时代的影响。由于现代传媒的巨大扩播效应,AI从此以世界巨星的公众知名度、水银泻地般渗透力,昂首进入我们的视野。


原来知名度有限的一系列与AI有关的名词术语,如人工智能、机器学习、深度学习、大数据、GPU、图像识别、语音识别、语音合成、机器翻译等等,在2016年纷纷成为科技热词,频繁出现于媒体。


原来主要影响IT圈的AI技术,迅速普及和渗透进各行各业。各种全球性地区性的学术会议、论坛、峰会,令人眼花缭乱地接踵而来;谈论AI最新发展在本行业现在的应用和未来的影响,成为2016年的企业时尚。而还不知道AI的企业家和创业者们,往往感觉到自己被贴上落伍的标签。


资金的投向和人才的流动,从来就是观察技术潮流的风向标。2016年之前,风险投资早就悄悄潜入与AI相关的领域;而在2016年投资偏冷的全球大环境下,对AI投资却分外的热。AI技术人员在人才市场格外供不应求。最紧俏的,是深度学习专业人才,年薪100万美金,在2016年并非最令人羡慕的礼遇。人们还在感叹,眼看深度学习领域的几位学科前驱人物,一个个都被科技巨头公司挖角,只有硕果仅存的Bengio,还在蒙特利尔大学坚守。话音未落,刚进入2017年才十几天,这位大师创办的公司也被微软收购,他还将担任微软公司特聘顾问。深度学习的学术界大师们,被科技巨头争先恐后悉数收入囊中,这种前所未闻的奇事,让人触摸到近乎于高烧的AI温度。


这一系列的故事,还只是2016年AI对人类社会巨大影响浮出水面的冰山一角。很多重大事件,AI早已参与其中,有的还扮演重要角色。只是,我们往往漠视。


2016年里约夏季奥运会,是这一年全球的盛大狂欢节。尽管这一届奥运会中到处可见AI身影,可是,很少有人注意到,机器人写手已经悄悄加入了浩浩荡荡的新闻记者队伍。美国《华盛顿邮报》和中国的《今日头条》都派出了实力不俗的专业写作机器人。


《今日头条》的头条实验室与北京大学计算所联合研发的"Xiaomingbot"机器写作系统,甚至有拟人化的名字与头衔——记者小明。这位机器记者很勤奋,奥运会16天中发布了450篇新闻;“他”还是快手,赛事结束后新闻生成到发布平均时间只需两秒。“他”的文章也颇受欢迎,在奥运期间总共有超百万阅读量,阅读率与同期该网站体育频道人类记者不相上下。


虽然在播报赛事项目数量上,“小明”机器人只有乒乓球、羽毛球、网球和女足4项,不敌《华盛顿邮报》的机器写手Heliograf的10项,但“小明”还擅长于长文报道,可以用800多字来介绍赛事精彩环节。如中国女足比赛中这样的细节描述报道:“下半场刚开始不久,外围谭茹殷的一脚远射,高了”等等,这些特长,又是基本只会写短新闻的Heliograf所不及。奥运结束后,“小明”机器人又投入了欧洲足坛五大联赛及NBA的报道之中。

 


《今日头条》的头条实验室与北京大学计算所联合研发的"Xiaomingbot"机器写作系统,在2016奥运会期间发布的体育报道


2016点秋季,全球关注的大事件是美国大选。同样的,尽管AI在整个大选中都在发挥作用,但喧嚣声中,人们却很少知道一位叫MogAI的智能程序系统在一直在默默工作,并努力对大选结果做出自己的独立预测。


整个大选过程风起云涌、起伏跌宕,据说是美国大选历史上一出最精彩绝伦的大戏。大选投票前夕,几乎所有的美国主流媒体和权威专业调查机构的民调口径惊人地一致,都预测民主党候选人希拉里会胜利,当选的概率超过80%。而那位共和党候选人特朗普当时几乎成了民调的弃儿,被预测当选的概率不到20%。


民调预测一边倒的环境中,几乎只有印度人创业公司开发的MogAI智能软件系统在孤立而顽固地坚持,预测特朗普会获胜。机器这样不合时宜,理所当然被狂热的美国选民和权威的主流媒体所忽视。


直到大选结果揭晓,蓦然回首,人们发现MogAI已经是第四次准确预测美国大选,从未失手。



各国政府高度重视AI


部分公众对AI的巨大影响存在盲区,这情有可原。但各国政府却绝不能对正在和将要强力推动人类社会发展的新技术巨人掉以轻心。2016年,正是全球政府与智库机构发布AI政策和研究报告最密集的一年。


美国政府的动向,引人关注。


2016年9月,美国著名科技刊物《连线》(wired) 放出消息,奥巴马总统将担任该刊11月号的客座编辑,据说,美国现任总统当杂志的客座编辑,史无前例。果然,到了10月,奥巴马如约而至,与麻省理工学院媒体实验室主任伊藤穰一一起接受了《连线》杂志记者采访,谈论的主题正是AI。对于AI时代的来临,奥巴马说:“AI正在以各种方式进入人们的生活,而我们只是尚未察觉。部分原因在于,流行文化对AI的描述存在偏见。”


美国总统对AI的关注,当然不仅仅限于担任一本杂志的客座编辑。10月13日,奥巴马前往匹兹堡,参加并主持白宫与匹兹堡大学和卡耐基梅隆大学联合举办的“白宫前沿峰会”,在会上再次阐述了他对人工智能的看法。这样的白宫前沿峰会,同样史无前例。


就在前一天,白宫发布了《为AI的未来做好准备》和《国家AI研究与发展策略规划》两份重要报告。前者谈人工智能的现状、现有和潜在应用,以及它在社会和公共政策方面存在的问题;后者确定了国家资助AI研究和发展的策略——对AI研发进行长期投资、开发人机协作有效方法、理解应对AI带来的伦理、法律和社会影响、确保AI系统安全、开发AI共享公共数据集和测试环境平台、建立评估AI技术的标准和基准、更好把握国家AI研发人才需求。七项具体策略,显示出美国国家AI政策导向。


到了12月20日,白宫又跟进发布了《AI:自动化与经济》报告,进一步分析AI和自动化技术对经济的影响及应对。媒体关注报告中的惊人分析——专家评估,2 到 10 年内,最多可能高达47%的美国职位有被 AI 技术和计算机化取代的风险。而几乎同样多的农业职位被技术取代,在美国经历了100多年。


白宫如此关注和推动AI发展,奥巴马称为是“新阿波罗计划”。而人们同时也联想到美国政府上世纪九十年代推进的信息高速公路宏伟计划及其深远影响。


在AI领域一直深耕的英国,自然不甘落后。2016年11月9日,英国政府科学办公室发布报告《AI:未来决策制定的机遇与影响》,阐述AI未来发展对英国的影响,展示了利用独特AI优势提升英国国力的雄心。英国数字化和文化部长马特·汉考克(Matt Hancock)在报告前言热情预言:AI有望像 19 世纪的蒸汽机那样,彻底改变我们生活。


联合国这一年的相关报告审视AI则已经非常深入。联合国教科文组织与世界科学知识与技术伦理委员会最新联合发布的2016年报告,除了讨论机器人制造使用促进AI的进步,还重点关注这些进步所带来的社会与伦理道德问题。


在中国,2016年的AI重要信号从浙江乌镇发出。第三届“世界互联网大会·乌镇峰会” 11月中旬在这风景如画的江南小镇举行。11月15日下午,网易科技与乌镇智库在乌镇步步莲花画廊共同举办《乌镇指数:全球人工智能发展报告2016》发布会暨AI交流会。这份全面的研究报告,把中国AI放在放在全球框架中考察。人们欣喜地看到,中国AI已经进入世界前列,但仍在奋力追赶最强者,前途可期。


进入2017年,在春天召开的全国“两会”上,人工智能第一次被写进李克强总理的《政府工作报告》。


AI庆祝自己走过了60年历程的2016年,很像唐朝边塞诗人岑参笔下的奇丽意境——忽如一夜春风来,千树万树梨花开。百度前首席科学家吴恩达(Andrew Ng)甚至信心满满地表示:当前一轮AI热将不会像以往那样昙花一现,AI寒冬可能不会再出现了。


 楼主| 发表于 2017-5-7 02:26 PM | 显示全部楼层

连载(贰)|AI的酷暑与寒冬 

2017-05-07 陈宗周 环球科学ScientificAmerican

作者:电脑报创办人陈宗周


中国科学院自动化研究所研究员王飞跃这样形容:人工智能发展似乎没有经历春秋两季,只有夏天和冬天,忽冷忽热。


1956年达特茅斯会议:AI的诞生

一般认为,AI的起点在1956年夏季,在美国东北部风景如画的新罕布什尔州汉诺佛(Hanover)小镇。这年夏季,小镇上历史悠久的常春藤联盟大学达特茅斯学院(Dartmouth College)聚集了一群人。正是他们,开启了波澜壮阔而又起伏跌宕的AI壮丽史诗序幕。


与会十来人,其中马文·明斯基(Marvin Minsky)、约翰·麦卡锡(John McCarthy)、艾伦·纽厄尔(Allen Newell)、赫伯特·西蒙(Herbert A Simon)四人获得图灵奖。中文名字叫司马贺的西蒙,还获得了诺贝尔经济学奖。其余几位还包括:信息论创立者克劳德·香农(Claude Shannon)、开发出跳棋程序打败自己的阿瑟·塞缪尔(Arthur Samuel)等等。


2006年达特茅斯会议当事人重聚,左起:摩尔、麦卡锡、明斯基、塞弗里奇、所罗门诺夫


灵魂人物、会议召集者麦卡锡当时是达特茅斯学院的数学系年轻助教,1955年8月31日,他起草了由他和香农等四人联合签名的建议书,提议在第二年夏季召开一次人工智能会议,Artificial Intelligence(AI)概念第一次在这份建议书中出现。尽管晚年麦卡锡曾坦承,AI并不是他的首创,出处自己也记不清了,但“人工智能之父”的桂冠,已牢牢地戴在他头上。


麦卡锡起草建议书的时候才28岁,他的构想非常宏大,建议书里开列了翌年会议研讨的七个领域:自动(即可编程)计算机、编程语言、神经网络、计算规模(即复杂性)理论、自我改进(即机器学习)、抽象、随机性和创见性。这些领域几乎勾勒出今后人工智能研究的雄伟轮廓。


1956年,达特茅斯会议如期举行。会议目标——“解决AI领域一个或更多问题”虽无法实现,但西蒙和纽厄尔的启发式程序“逻辑理论家”(Logic Theorist),证明了名著《数学原理》第二章52个定理中的38个,麦卡锡介绍了下棋程序中α-β搜索法,明斯基带来了学习通过迷宫的Snarc学习机雏形,这些成果,开拓了AI最初的学科研究疆界。


会议期间,AI名称确定(尽管当时也有争论),任务得以初步明确,并出现了最初成果和最早一批研究者。这都被广泛认为是AI诞生的标志。


之后的十多年,AI在人工智能的一些领域不断取得突破,涌现了大批成功的AI程序和新研究方向。


尽管当时编程工具十分初级,AI研究人员还只能够着眼于一些特定问题,但那时出现的几何定理证明器,已可以证明一些几何定理;西洋跳棋程序,水平进化到打败州冠军;积木系统,可以用机械手每次拿起一块积木,按照指定方式调整积木堆。原以为只能进行数值计算的机器,已经能做一些原属于人类智能的事情。


AI专门研究机构开始创建,资助经费大量到来。麦卡锡和明斯基跳槽到MIT(麻省理工学院),创建了第一个AI实验室。1963年,刚成立的ARPA(先进研究计划署,是因特网的始创者)立刻给予MIT的AI研究220万美元,后来追加到每年300万美元。在英国,另一个重要的AI实验室于1965年在爱丁堡大学建立,也得到充足经费支持。


总之,达特茅斯会议之后的十多年,AI研究不断取得进展,鼓励前沿探索研究的经费源源不断,有人把这段时间称为AI的黄金十年。


遇到瓶颈:计算能力之殇

当时的AI研究人员和领军人物对未来极其乐观。1958年西蒙预言“十年之内,计算机将成为国际象棋世界冠军”。纽厄尔则说 “十年之内,计算机将发现并证明一个重要数学定理”。1965年,西蒙认为“二十年内,机器将能完成人能做到的一切工作”。到1967年,明斯基更大胆判断:“在我们这一代人的努力下,创造人工智能难题将会从根本上被解决。”这就是所谓的“一代人解决AI问题”豪言。


但上世纪70年代初,AI遭遇了瓶颈,问题和批评接踵而来。


AI研究人员遭遇的最重要瓶颈是当时计算机能力严重不足,有限的处理速度和内存不足以解决许多实际的AI问题。例如,自然语言处理方面,内存只能容纳含20个单词的词汇表,只能应付表演。更有人从理论上证明,AI有关的许多问题只能在指数时间内获解(处理时间与处理规模的幂成正比)。按这样的理论,解决复杂一点的问题,几乎需要无限长的时间。这意味着,AI中的许多程序理论上就只能停留在简单玩具阶段。


另一方面,初创的AI那时也实在肤浅。


这就是AI,仿佛条条路都可以通往人脑核心,但再往前走,却发现高墙林立。1973 年,历史上赫赫有名的《莱特希尔报告》(Lighthill Report)推出。报告结论十分严厉——“AI领域的任何一部分都没能产出人们当初承诺的有主要影响力进步”。《莱特希尔报告》一出,英国政府停止了除三所大学之外的全部AI相关研究的资助。


各国政府纷纷仿效,如同釜底抽薪,曾经火热的AI从云端跌落,经历第一次 “人工智能寒冬”(AI Winter)。之后十来年,AI几乎淡出人们视野。

 

AI复兴与再度冷却

从专家系统风靡到个人电脑普及

AI的第二次高潮,在上世纪80年代初开始,引领力量是知识工程和专家系统。专家系统实际上是一套程序软件,能够从专门的知识库系统中,通过推理找到一定规律,像人类专家那样解决某一特定领域的问题。简单说,专家系统等于知识库加上推理机。


这一次AI复兴,与斯坦福大学教授爱德华·费根鲍姆(Edward Feigenbaum) 有很大关系。由于对AI的贡献,他获得了1994年的图灵奖。

世界上第一个专家系统程序DENDRAL主要开发者:爱德华·费根鲍姆


早在1965年,他和诺贝尔奖得主莱德伯格(Joshua Lederberg)等人合作,开发出了世界上第一个专家系统程序DENDRAL,能够从几千种可能的分子结构中挑选出一个正确的。这一示范性专家系统让很多科研机构和企业纷纷开发自己的专家系统,上世纪80年代初进入高潮。


1980年,卡内基梅隆大学为DEC(数字设备公司)设计了名为XCON的专家系统。到1985年,企业投入超过10亿美元,催生出一批IT新公司。


各国政府也努力赶上这波AI潮流,纷纷推出政府主导的宏伟AI新计划。日本号称投资8.5亿美元的五代机计划、英国耗资3.5亿英镑的阿尔维(Alvey)计划,相继在80年代推出。而美国的DARPA(国防先进研究计划署,即以前的ARPA改称)对AI的投资,1988年已增加到1984年的三倍。


AI的第二次热潮,在上世纪80年代后期开始降温,到上世纪90年代几乎完全冷却,标志事件是各国政府基本停止对AI的经费支持。AI的再一次跌落,AI第二次低潮,是由于关注点和投资迅速转向了个人电脑和后来的互联网产业。


日本的五代机计划声势最大,结局也最为悲壮。1981年,全球电子行业风头正劲的日本,已经在计算机的核心器件半导体存储器DRAM等硬件领域超越美国,为了未来IT领域的全面竞争,日本政府把突破口选择在发展第五代智能计算机。


日本五代机的主要目标是采用新存储结构、新程序设计语言和新操作系统,突破 “冯·诺依曼瓶颈”,大规模并行处理知识信息。日本计划的五代机有这样的功能:能处理知识;具有听觉、视觉甚至味觉;能听懂人说话,自己也能说话;能认识不同的物体,看懂图形和文字。甚至,不再需要编写程序指令,只要口述任务,机器自动理解并完成工作。五代机实际上就是智能机,研究人员把新一代计算机称为“知识信息处理系统”(KIPS)。


日本五代机的领军人物、“新一代计算机技术研究所”(ICOT)所长渊一博年富力强,当年才46岁。渊一博和五代机“科研浪人”们,自我封闭在东京都市繁华区东京塔旁面对东京湾美景的办公楼内,近乎玩命地拼搏。结果是,渊一博军团悲壮地一步步走向困境,最终折戟沉沙,日本五代机项目于1992年终止。


1997年6月,我在日本拜访传奇人物渊一博 ,见证了AI在日本的退潮期。我们见面时,他早已从东京市区豪华办公楼搬到庆应大学一间简陋办公室。在这里低沉的气氛中,渊一博回顾了五代机和AI那一段历程。临别,目送他落寞的背影,我深切感受到当时日本的AI研究,昔日繁荣已经远去。

 

20年沉默缔造:因其伟大,故而艰难

上世纪90年代前期AI进入的第二个寒冬,长达20年之久。在很长时间内,AI项目很难拿到资助经费,相关学科和专业的毕业生也很难找到好工作。甚至,AI领域的教学科研人员都有点不好意思对人介绍自己是搞AI的,因为不少人视之为空谈。


有段子形容美国高校当时的AI生存状态:计算机系里一般有三群人,一群搞计算机理论,一群搞计算机系统,另外一群搞AI。前两群人常常因门户之见互相瞧不起,而这两群人共同瞧不起的,却是搞AI的这群人。段子有点辛辣,却真实反映出AI那时的窘况。


这也是AI,因其伟大,故而艰难。

但是,即使在这样的环境中,AI仍然在默默前行。AI最困难的时候,全球科学家仍然在顽强地坚持,学科领域还在不断扩大,研究和应用也在不断深入。个人计算机产业蓬勃发展、互联网广泛使用,其实也是一柄双刃剑,一方面把AI逼入寒冬,另一方面,却使人类社会获得前所未有的强大计算能力,通过互联网积累的信息、数据也出现爆炸性增长,这些实际上都在为AI日后复兴打下坚实的基础。吹开AI冰封寒冬的春风,已在不远的前方了。

回复 鲜花 鸡蛋

使用道具 举报

 楼主| 发表于 2017-5-20 10:27 PM | 显示全部楼层

他是“深度学习教父”,造就了今天的AI风口 | 总编专栏 

2017-05-21 陈宗周 环球科学ScientificAmerican


本文是《环球科学》总编、社长陈宗周先生撰写的系列专栏“AI传奇”的第三回。通过该专栏,陈宗周先生将带领我们回顾AI在过去60年走过的风风雨雨,也前瞻AI将如何塑造人类社会的未来。


对专栏有任何建议和意见、对AI的历史和发展有任何问题,欢迎在评论区留言,陈宗周先生会亲自回复一些重要的问题,并有可能通过直播的方式,与读者朋友一起讨论AI的历史与未来。


陈宗周是《环球科学》杂志社社长,《电脑报》创始人。



正是杰夫·欣顿等科学家在人工神经网络领域锲而不舍的研究与探索,深度学习才会脱颖而出,创造出今天AI的一个个奇迹。



实习生培训班的老人

2012年的一天,谷歌公司的实习生培训班里,来了一位头发花白的奇怪老人。在这群年轻实习生中,他显得非常特别,不但年龄很大,却仿佛什么都不懂。比如,培训老师说,“输入你的 LDAP(轻量目录数据库)用户登录码”,老人会立刻举手问道:“什么是 LDAP?” 培训班上的年轻人都在想,“那个老家伙是谁?为什么他连 LDAP 都不知道?”


直到有一天,有人在餐厅午餐时发现老人,立刻走过来热情地说,“欣顿教授,我选修了你的课。你在这里做什么?” 实习生们大为惊讶,原来天天和他们坐在一起的这位老实习生,是 “深度学习教父”、加拿大多伦多大学计算机系教授杰夫·欣顿(Geoffrey Hinton)。


杰夫·欣顿


不过,那时的欣顿,在AI圈子里虽然已经很有名气,但和今天的影响相比,不可同日而语。现在,欣顿引领的深度学习技术潮流,已经席卷全球,成为AI这一轮复兴的关键技术。杰夫·欣顿也成为媒体追捧的科技巨星。


欣顿居然在谷歌公司参加过实习生培训,这是一段颇有戏剧性的故事。谷歌大脑(Google Brain)负责人杰夫·迪恩邀请欣顿到谷歌工作,他自己也愿意到谷歌短期工作三个月,双方一拍即合。可是,怎么进入谷歌,他们遇到了麻烦。谷歌有一些古怪的规定,让短期工作的欣顿必须经过实习生培训。这样,六十多岁的他,出现在年轻实习生队伍里。


欣顿与谷歌的缘分并没有因为这点小插曲而断绝。几个月后,他和他的学生在ImageNet图像识别竞赛中取得惊人成果,谷歌不久就伸出橄榄枝了。


2013年春天,谷歌收购了多伦多的DNNresearch公司。这家深度神经网络研究公司,前一年刚创办,连欣顿共三人。收购后,欣顿很自然地成为谷歌公司AI顾问。大感意外的他,这样告诉别人:“我以为他们对我们的知识产权感兴趣,结果他们对我们这几个人感兴趣。”


是的,雄心勃勃在AI领域进取的谷歌,感兴趣的正是欣顿这位深度学习领军人物。这次收购,实际上也打响了高科技公司巨头的深度学习人才争夺战第一枪。后来,曾经在欣顿门下做过博士后的纽约大学计算机系教授雅恩·乐昆(Yann LeCun,即杨立昆)、蒙特利尔大学教授约书亚·本希奥(Yoshua Bengio) 先后被Facebook、微软聘用。欣顿和这两位教授,被称为深度学习的 “加拿大黑手党三人帮”,他们都与加拿大有渊源,又共同成为深度学习的先驱人物。了解这些,就不难明白,他们先后被高科技巨头公司网罗,是深度学习人才战的标志性事件。随着越来越多的企业加入这场AI人才大战, AI在各行各业的深入应用也不断加快。



人工神经网络道路崎岖

当前的AI热潮,与以前两次有极大不同的是,不但科研人员大量流向企业,投资主体也已经从政府转向企业。回顾计算机和互联网走过的道路,同样都有这样的路径:从军事和科研领域转向商用,再转向大规模民用,从而在全社会普及。今天的AI,正在向全社会普及之中。而这一切,与欣顿为代表的一批深度学习领域科学家在AI寒冬中顽强坚持科研方向有很大关系。


杰夫· 欣顿1947年出生于英国。他的家族有很深的学术渊源,他的曾祖父的岳父就是大名鼎鼎的乔治·布尔(George Boole),是符号逻辑领域的先驱,这是促进计算机诞生与发展的重要基础研究之一,“布尔代数”就是以他的姓命名。


欣顿很早就开始思考人的大脑。16岁时一位同学给他介绍关于记忆的理论:大脑对于事物和概念的记忆,不是存储在某个单一的地点,而是像全息照片一样,分布式存储于一个巨大神经元网络里。全息照片、分布式、神经元网络,这些概念深深启发了他,让他对神经网络产生了浓厚兴趣。


很自然地,他进入剑桥大学心理学专业并于1970年本科毕业。1978年,他取得爱丁堡大学AI专业博士学位,这所大学的AI实验室,是世界上最早建立的四个AI研究基地之一。博士毕业后,他在卡内基梅隆大学等多所欧美著名高校游学和研究,最后到加拿大多伦多大学任教。无论他走到哪里,他的研究方向始终聚焦人工神经网络。他在神经网络方面的漫长学术生涯,几乎与AI学科同龄。


人工神经网络(ANN),简称神经网络,是AI的重要研究领域。AI研究领域一直有两大学派,一派是符号学派,被称为符号主义; 另一派是联结学派,也被称为联结主义。两大学派都从人脑得到启示,开始AI研究。符号学派从人脑的推理功能出发,认为要模拟人脑的逻辑推理思维,就要把相关的信息抽象为符号,然后进行符号运算,从而实现推理功能。联结学派则从人脑的组织出发,进行机器模拟。人脑有大量被称为神经元的脑细胞,人之所以能够进行思维,就是因为这些神经元互相联结,处理各种信息。同样,如果用机器模拟神经元,并建立人工神经元联结网络,这样的人工神经网络就能够进行思维。属于联结学派的人工神经网络,一直按照这样的思路进行研究。


正像AI领域的所有研究一样,人工神经网络道路注定不会平坦。


神经网络概念实际上先于AI,在20世纪40年代就出现了。AI学科的创始人之一的马文·明斯基1951年就研制出基于神经网络的学习机,他在达特茅斯会议期间拿出来交流的,正是这一神经网络系统。1957年康内尔大学心理学教授弗兰克·罗森布拉特(Frank Rosenblatt)提出的“感知器”(Perceptron),是第一次用算法来精确定义神经网络和第一个具有自组织自学习能力的数学模型,成为后来许多神经网络的基础。另一方面,这台电子感知机因为能读入并识别简单的字母和图像,而在当时引起轰动,引来对AI的无数美好遐想。


但是,那个时代的神经网络系统根本不可能实用,马文·明斯基自己也对感知机提出严厉批评。人工神经网络的研究,很快在AI的第一次寒冬中进入低潮。



寒冬中的坚持

杰夫·欣顿博士毕业不久,AI刚好迎来第二次高潮。一直在神经网络领域耕耘的他并没有感到好时光到来,因为那个时代符号学派占了上风,名噪一时的专家系统、智能推理机,都是符号主义的胜利。而到了AI的第二次寒冬,所有的AI项目却都受到重创,神经网络也如此。


人工神经网络想法非常好,研究成果也大量出现。但随着对人脑研究的深入,人们发现,人脑的确是宇宙中最复杂的精灵之物,模仿人脑的人工神经网络系统,谈何容易。


一个人类的大脑保守估计有1000亿个神经元。人们常常比喻人脑像一台电脑,实际上每一个神经元都是一台电脑。每一个神经元有无数突触与其他神经元相连,估计突触的数量在100万亿到1000万亿之间。谷歌大脑是最著名的人工神经网络系统,即使在今天,目标也不过是达到大脑某一部分的功能。


由于人工神经网络的高度复杂性,这一研究方向一度被认为是学术死路。在AI第二次进入低谷时,很多同行开始转去研究别的领域,但是欣顿等人仍然在这里坚守,他因而被视为不可理喻的怪人,说起神经网络,人们都用不屑的眼神看着他。尽管欣顿在人工神经网络领域硕果累累,并在1998年被选为英国皇家学会院士,还获得了很多其他荣誉,但仍不能扭转人们的偏见。很长一段时间里,多伦多大学计算机系私下流行着一句对新生的警告:不要去欣顿的实验室。


欣顿不为所动,仍然坚持自己的神经网络研究方向。据说他有一种激励自己的特殊方法,每周发泄般大吼一次:我发现大脑是怎样工作的啦!这样的习惯,几十年一直保持下来。


在神经网络相关学术论文很难得到发表的那段时间,他坚持写了两百多篇研究论文,为后来的突破打下了坚实的基础。科研经费又成为他的大问题。但功夫不负有心人。2004年,欣顿终于从加拿大高等研究所(CIFAR)获得了每年50万美元的经费支持,如果和日本五代机等知名AI项目得到的巨额资金相比,这实在是一笔微薄的经费。但是,名为“神经计算和适应感知的这一项目,在乐昆和本希奥两位志同道合者的良好合作下,他们将一批一流的计算机、生物学、电子工程、神经科学、物理学和心理学专家团结在一起,共同探索神经网络模拟人脑智能的新方法。



深度学习登场

重大突破出现了。2006年7月28日,欣顿和学生题为《用神经网络降低数据维数》的论文在美国权威的《科学》杂志发表,这篇论文被认为是深度学习领域开创性论文。论文中介绍了神经网络的一些新思想和新方法,引起AI和人工神经网络界的关注。而他们和经费支持者CIFAR一起,开始把新思想和新方法,用20年前就出现过但没引起重视的一个术语“深度学习”(Deep Learning)来描述和包装。深度学习开始登场,渐渐地成为AI和神经网络最热门的研究方向,在有些场合,深度学习甚至成为神经网络的代名词。


尽管2006年以后深度学习就开始引起关注,但震撼性的影响发生在6年后,在前面提到的2012年ImageNet图像识别竞赛上。ImageNet是斯坦福大学华裔女科学家李飞飞和普林斯顿大学华裔教授李凯2007年起合作开发的大型图像识别项目基础上创办的权威竞赛,这项竞赛已经成为图像识别领域当年最高水平者之间的较量。

  

 ImageNet缔造者李飞飞


欣顿的两位学生组成多伦多大学小组,在2012年的竞赛中采用深度学习赢得了竞赛的图像分类比赛冠军,不仅识别出猴子,而且区出分蜘蛛猴和吼猴,以及各种各样不同品种的猫。


一次比赛的冠军也许并不重要,重要的是欣顿小组用了与其他参赛者完全不同的方法,得到颠复性的结果。竞赛中,他们采用深度学习的识别结果,准确率超过第二名东京大学10%以上,而第二到第四名都采用传统计算机图像识别方法进行分类,他们之间准确率的差别不超过1%。也就是说,采用深度学习,把图像识别的准确率进步一下子提高了一个数量级。2012年10月,在意大利佛罗伦萨的研讨会上,竞赛组织者李飞飞宣布了这一压倒性的结果,在计算机视觉领域产生了极大的震动,并迅速波及到整个AI界和产业界。


深度学习的热潮从此掀起,一波接一波向前迅猛推进,不断进入一个又一个领域并连战连捷,势如破竹,形成今天锐不可挡的AI狂潮。



AI传奇专栏回顾:

第二回 | AI的酷暑与寒冬

第一回 | 2016,AI春暖花开

回复 鲜花 鸡蛋

使用道具 举报

发表于 2017-5-20 11:47 PM | 显示全部楼层
回复 鲜花 鸡蛋

使用道具 举报

 楼主| 发表于 2017-5-28 07:29 PM | 显示全部楼层

从GPU到ImageNet,两位硅谷华人改变了AI发展史 | 总编专栏 

2017-05-28 陈宗周 环球科学ScientificAmerican


本文是《环球科学》总编、社长陈宗周先生撰写的系列专栏“AI传奇”的第四回。通过该专栏,陈宗周先生将带领我们回顾AI在过去60年走过的风风雨雨,也前瞻AI将如何塑造人类社会的未来。


对专栏有任何建议和意见、对AI的历史和发展有任何问题,欢迎在评论区留言,陈宗周先生会亲自回复一些重要的问题,并有可能通过直播的方式,与读者朋友一起讨论AI的历史与未来。


陈宗周是《环球科学》杂志社社长,《电脑报》创始人。



深度学习迅速成为统治AI的最热门技术,除在思想和算法上有重大突破之外,它诞生时的计算环境与信息环境也有极大变化。深度学习生逢其时,命运之神终于眷顾欣顿。


深度学习是机器学习领域的分支学科,而机器学习(Machine Learning, ML这门AI中的交叉学科,历史与AI同样悠久。机器学习思路是让计算机自动学习相关知识并解决实际问题。实现机器学习有很多方法,深度学习即深度神经网络(DNN,Deep Neural Networks)是其中重要的方法之一。


AI、机器学习和深度学习之间的关系,可以这样简单概括:AI是目的,机器学习是方向,深度学习是路径。



 深度神经网络 


机器学习、神经网络都不是新东西,虽然严格说深度学习也不是新东西,但它在2006年被欣顿等重新包装推出时,的确有很多创造性的新思想和算法,让机器学习焕然一新。但是,AI的历史告诉我们,不是只有好算法就能成功。


比如,深度学习用统计学方法巧妙处理深度神经网络数据的权重,把概率上相对近似度高的数据合并处理,大大降低了数据的维数,也就是降低了复杂度。由于这项关键技术,欣顿把自己构建的深度神经网络也称之为深度置信网络。但是,即使大大降低了数据的维数,涉及的数据和计算量依然惊人。


神经网络模仿人的大脑,用学习的方法获取准确知识并用之解决问题。最初的神经网络只有单层,这样简单的神经网络当然不能实用。由于人脑的学习过程实际上是分层进行的,人工神经网络后来又发展成多层神经网络,在输入层和输出层之间加上隐层,这就是三层神经网络。隐层还可以不断增加,达几层、几十层或者更多。夺得2015年ImageNet图像识别竞赛冠军的微软ResNet系统,就是 152 层的深度神经网络。



深度神经网络可以使学习一层层深入,这让深度神经网络或深度网络有时也成为深度学习的代名词。从常识上看,有深度固然好,但随着神经网络层数增加,神经网络会越来越复杂,计算量变得无比巨大。


又如,深度学习中涉及到的数据需求,也会随着深度神经网络系统规模的增加而大大增加。


就像人类学习需要有各种学习材料、学习场景一样,机器学习也需要这些,只不过机器需要的学习材料、情景都必须数据化。


也像人类学习可以分为有老师的学习和无老师的学习一样,机器学习可以分为监督学习和无监督学习,监督学习必须使用经过标注的数据,而无监督学习使用的数据不需经过标注。


神经网络本质上是一个数据驱动模型,需要提供数据让机器去学习,然后根据学习的结果不断调整、优化模型中的参数,达到使模型收敛,也就是达到预期学习效果,这一过程叫训练。


一个神经网络系统一般需要三个数据集:训练集、开发集和测试集。训练集规模越大、匹配度越高,训练效果也就是学习效果越好。


神经网络系统如果训练数据太少,会出现“过拟合”,也就是说学习结果太针对特定情景,不能推广。相反的,学习结果能广泛适用,则称为“泛化”。正像人类学习能举一反三是因为掌握大量知识一样,机器学习也需要大量的、多样化的数据。


形象地说,机器学习需要大量多样化的数据“喂”进机器,“喂”进数据越多,质量越好,学习效果越好。


欣顿想了很多办法来减少对监督学习的需求,因为这意味着大大减少工作量和提高训练速度。他的创新思路是把无监督学习和监督学习结合使用。先让机器自己进行无监督学习,也即自动处理没有经过标注的数据,进行逐层预训练。这使得在利用反向传播算法对网络进行全局优化之前,网络参数能达到一个好的起始点,从而在训练完成时能达到较好的局部收敛点。最后阶段是进行监督学习,即用经过标注的数据进行训练。这样大大提高了训练的速度。欣顿形象地比喻说:“想象一下小孩子,当他们学着辨认牛时,并非需要去看几百万张妈妈们标记上‘牛’的图片,他们仅仅是自己学习牛的样子,然后问到:‘这是什么?’ 妈妈会说:‘这是一头牛’,他们就学会了。”


这是深度学习巧妙的学习过程,但即使有这些发明,深度学习也必须在计算能力大大增强和海量数据出现的情况下,才能充分发挥作用。


还有,如果要使神经网络系统表现更加优秀,会涉及到一个有趣的术语,即鲁棒性(Robust),这个英语术语的音译非常传神,让人一望可知含义是粗壮、稳定。怎么提高神经网络系统的鲁棒性呢?常用的方法之一是通过人为添加一定的噪音来进行训练。就好比军人在平时训练中要增加一些恶劣场景来提高训练水平,以提高实战能力一样。在神经网络中,为提高鲁棒性来添加噪音,会增加数据量和多样性,同样提高了对计算能力的要求。


总之,被人工智能专家、日本人工智能学会伦理委员松尾丰称为AI领域五十年重大突破和一次飞跃的深度学习,就像一只雄鹰,高飞还需要计算能力和海量数据这两只强劲的翅膀而装上这两只翅膀,两位华人发挥了很大的作用,他和她分别提供了具有强大计算能力的GPU和ImageNet大数据集。



 黄仁勋与GPU 


GPU生产商英伟达公司CEO黄仁勋(Jen-Hsun Huang),1963年出生于台北,1984年毕业于俄勒冈大学电机工程专业,后来在斯坦福大学取得硕士学位。

 

中国著名AI专家、格灵深瞳公司CEO赵勇博士这样评价:有人说是深度学习成全了英伟达的GPGPU(通用GPU),其实我认为,反而是GPGPU,成全了深度学习。


赵勇博士坚持认为:如果没有英伟达的CUDA(计算统一设备架构)平台,科学界证实深度学习巨大潜力的时间不知道还要推迟多久。更难能可贵的是,通用GPU技术使得在PC级别的计算机上进行高密度的高性能运算成本大幅降低,以至于一个普通科研人员的台式电脑都有可能部署上万个并行处理内核。这使得深度学习技术迅速地在科技界发展和普及起来。可以这么说,如果没有GPGPU,坚持研究了多年的神经网络算法的欣顿教授们,恐怕还得继续在学术界沉默不少年。


赵勇博士的说法太绝对,比较中立的说法是,深度学习和GPU互相成全,真正做到了双赢。深度学习借助GPU强大的并行计算处理能力迅速展示了自己的工程可行性和广泛应用前景,GPU又因为深度学习打开AI一个个应用新市场而同步得到大发展。


GPU,正是黄仁勋创办的英伟达(NVIDIA)公司首创。


图片来源:NVIDIA


不少人很奇怪,硅谷的这家游戏显卡公司,怎么突然在深度学习中扮演重要角色呢?这实际上也是硅谷华人黄仁勋的励志故事。他1993年创办芯片设计公司英伟达之后,一直在芯片龙头企业英特尔等的缝隙下艰难发展。虽然,1999年英伟达推出了革命性的图形芯片GeForce256,并由此发明了GPU(图形处理器,也即图形处理单元)这个词,但主要用于游戏显卡的GPU,被认为是PC产业附属的一个细分市场,前途并不广阔。


但工程师出身的黄仁勋是个极有雄心的工作狂,也是一个喜欢在实验室与科研人员研讨前沿进展、相信技术能改变一切的疯狂冒险家。所以,当英伟达首席科学家戴维·科克(David Kirk)提出要发展高性能的通用GPU时,他毫不犹豫地坚定支持,他相信身为美国工程院院士的科克的超前判断,更何况这位科学家还领头开发出全世界最畅销的独立显卡,成为英伟达的拳头产品。


今天看来,用高性能通用GPU让个人拥有几百美元的廉价超级计算机、能支持大规模并行计算,是一个伟大的想法。但在2007年前后,英伟达情况非常不妙,一系列内外事件让公司处于水深火热之中,股价从最高37美元跌落到6美元。而且,科克设想的强大的GPU计算平台,市场需求在哪里?


在这样的背景下,黄仁勋顶住内外压力、坚定不移支持科克的近乎疯狂的项目计划。2007年英伟达推出了基于CUDA的通用GPU beta版,之后公司的所有GPU都支持这样的架构,吸引使用各种编程语言的工程师纷纷用英伟达的GPU进行开发,大大增强了GPU的开放性和通用性。


转机出现了,由于基于冯·诺依曼结构的传统CPU,并不擅长于并行计算,而GPU从一开始在底层设计时就考虑支持单指令多数据流,所以GPU大规模并行计算方面的强大能力远远高于CPU。到底高多少呢?在处理速度方面,2010年,NVIDIA 480 GPU芯片,已经达到每秒1.3万亿次浮点运算。到2015年的Titan X,更达到6.1万亿。人类首次突破万亿次浮点运算的超级计算机,1996年底才出现,价格要数百万美元。而一块高性能GPU芯片,则只要几百到一千多美元。不少专家对GPU和CPU作了比较,认为在执行特定任务时,前者速度是后者的100到300倍。


深度学习涉及到的计算,正好比较特定,主要进行高速度、大规模的矩阵运算。这样的应用场景下,擅长并行计算、计算能力强大而价格低廉的GPU,就成为最好的选择。欣顿的实验室买了一大堆GPU设备,其他的神经网络实验室也如此。随着深度学习取得巨大成功,几乎作为标配的GPU同步得到极大发展。


2016年,英伟达因为AI方面的远见而成为芯片行业的最大赢家,股价暴涨一倍多。在2017年的CES大展中,更传出英伟达可能很快超越英特尔的惊人消息。这些传言,背后是对 GPU和深度学习专用芯片未来的畅想。


欣顿们和深度学习成功了,黄仁勋和英伟达也成功了。



 李飞飞与ImageNet



创建ImageNet的斯坦福大学AI实验室主任李飞飞(Fei Fei Lee),则是与深度学习密不可分的另一硅谷华人传奇。


李飞飞1976年出生于北京,父母都是知识分子。李飞飞16岁时被父母带去了美国。刚到美国日子过得非常艰难,父亲给别人修照相机,妈妈当收银员,而她一边上学一边去中国餐厅打工,全家为生计奔波。在这样的情况下,李飞飞考上普林斯顿大学物理系,获得全额奖学金。

 

她自称拼命三郎,上大学后依然打工,居然攒下钱为父母开了谋生的干洗店,周末回家还要在店里帮忙干活。1999年大学毕业后,她放弃华尔街10万美元年薪,选择去西藏研究藏医一年。然后,获得全新人生感悟的她,去了加州理工学院电子工程系读AI专业博士,她进校时正是AI低潮期。母亲此时不幸中风还患上癌症,学校、家庭内外,学习、科研与生活多副重担压在她身上。 “如果重新来一次,我不认为自己还能挺过来。”她事后对人这样说。


但是,华人女子李飞飞有无比强大的内心,支撑她度过艰难岁月。然后,她创造了一项项学术奇迹。从加州理工学院到斯坦福大学,她发表了超过100篇AI学术论文,33 岁获得了斯坦福大学终身教授职位,又成为该校著名的AI实验室主任。 


真正使李飞飞名扬世界的,是她创建的ImageNet。我们在本连载第三回已经看到,正是由于这个图像大数据平台,深度学习走向辉煌。


图片来源:stanford


从2007年开始,ImageNet下载了近10亿张图片。这是一个无比庞大的数据集,要对这些数据进行标注,工作非常繁浩。李飞飞巧妙地在亚马逊网站土耳其机器人(Mechanical Turk)平台上,用互联网众包模式来标注这些图片。高峰期时,ImageNet是亚马逊土耳其机器人平台上最大雇主之一,来自167个国家的近5万人,用众包方式协同工作,筛选、排序、标注了近10亿张照片。


  李飞飞回忆说,现在回头去看,用大数据来训练计算机算法的重要意义显而易见。但在2007年,这并不显然。在这段旅途中,她觉得自己很长一段时间都非常孤独,有同事建议她多做些对获得终身教职更有用的事。研究经费方面也一直遇到麻烦,她甚至认为可能需要重开干洗店来为ImageNet项目筹资。


2009年,ImageNet终于诞生了。这是有1500万张经过标注的图片、含22000类物品的数据库,仅仅是猫,就有超过62000只、长相姿势各异的不同品种家猫和野猫。无论在质量上还是数量上,这都是一个规模空前的数据库。只有在互联网时代,才能搜集如此多的数据;只有在互联网时代,才能用众包方式完成这样的工作;也只有在互联网时代,深度学习这样的卓越创造,才能因大数据而升华。


大数据的威力很快显示出来了,ImageNet大数据集开源,成为检验各种机器视觉AI算法的最权威平台,也成为评价AI 科研机构和科技公司AI 实力的最好竞技场,自然成为全球科技界和媒体关注的焦点。     

      

颇有意思的是,深度学习与ImageNet也互相成全,互为造星者。2012年的ImageNet图像识别竞赛中,让计算机学习1000万张图片,然后用15万张图片进行测试,检验各种算法的识别准确率(实际上是错误率),在这样的大数据竞赛环境中,深度学习大放异彩,走上我们已经知晓的星光大道。最不跟风追求时尚的李飞飞,也成为世界闻名的硅谷科技明星。2016年11月,李飞飞加盟谷歌公司,负责谷歌云。这位总能面对挑战的科学家,又走上自己的新旅程。


目睹大数据对深度学习成功的关键性作用,松尾丰这样感慨:如果互联网网页的出现能再提早15年,也许今天硅谷的王冠就应该戴在日本的头上。他仍然在为日本的五代机而惋惜,认为如果有互联网这样能带来大数据的信息环境,五代机可能就成功了。这位日本著名AI专家的分析或许有偏颇,但也反映出大数据对于深度学习而言不可或缺。



好风凭借力,送我上青云。深度学习借助GPU和大数据两只有力的翅膀,直上云霄。



AI传奇专栏回顾:

第三回 | “深度学习之父杰夫·欣顿

第二回 | AI的酷暑与寒冬

第一回 | 2016,AI春暖花开

回复 鲜花 鸡蛋

使用道具 举报

发表于 2017-5-28 08:05 PM | 显示全部楼层
回复 鲜花 鸡蛋

使用道具 举报

 楼主| 发表于 2017-6-4 07:29 PM | 显示全部楼层

深度学习登台语音识别,AI赶超人类 | 总编专栏 

2017-06-04 陈宗周 环球科学ScientificAmerican


本文是《环球科学》总编、社长陈宗周先生撰写的系列专栏“AI传奇”的第五回。通过该专栏,陈宗周先生将带领我们回顾AI在过去60年走过的风风雨雨,也前瞻AI将如何塑造人类社会的未来。


对专栏有任何建议和意见、对AI的历史和发展有任何问题,欢迎在评论区留言,陈宗周先生会亲自回复一些重要的问题,并有可能通过直播的方式,与读者朋友一起讨论AI的历史与未来。

 


陈宗周是《环球科学》杂志社社长,《电脑报》创始人。



《圣经》中记载着这样的传说,远古人类都讲一种语言,他们希望建造一座通往天堂的高塔,这就是通天塔,也叫巴别塔(Tower of Babel)。为了阻止人类的计划,上帝让人类说不同的语言,分成不同的民族,在语言上无法自由沟通,巴别塔计划由此告终。

 

传说有点悲凉,却反映人类一直存在的美好梦想。重建巴别塔,也成了人类语言沟通和共识达成的象征和代名词。现在,AI让人类的梦想一步步走向实现。

 

让人类拆掉语言的樊篱,实现无障碍沟通,这项伟大的AI工程有三块重要基石:语音识别、自然语言理解、语音合成。三块基石是三大类技术,分别解决人类语言交流中三个问题:听清楚别人说什么、 理解别人说什么、根据听到和理解的去回答别人。

 

语音识别,主要解决“听清楚别人说什么” 这个难题,这是AI中的重要技术领域。近年来,由于深度学习技术的应用,语音识别取得了长足进步。

 


贾里尼克与统计语言学

就像AI领域中其他分支学科一样,语音识别历史同样悠久。1952年,贝尔实验室的K·H·戴维斯(K.H.Davis)等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年,英国人彼得·迪恩斯(Peter Denes)等研制了第一个计算机语音识别系统。但是,从上世纪50年代到70年代,语音识别研究走了一个很大的弯路,那就是简单地电脑模拟人脑,局限于人类学习语言的方式,认为必须先让机器理解自然语言。在当时计算机能力受限的情况下,这样的研究鲜有进展。

 

直到1970年后,统计语言学的出现打破了沉寂。而领军人物,就是IBM沃森实验室的弗雷德里克·贾里尼克(Frederick Jelinek)。


 

弗雷德里克·贾里尼克


贾里尼克是出生于捷克的犹太人。父亲死于纳粹集中营,他和母亲移民到美国。他是靠为东欧移民特设的全额奖学金进了麻省理工学院学电机工程,在那里遇到信息论创立者香农、语言学家罗曼·雅各布森(Roman Jakobson),以及邻近的哈佛大学语言学家诺姆·乔姆斯基(Noam Chomsky)等。这三位大师在研究境界上比同龄人高出一筹,他们对贾里尼克后来用信息论解决语言问题产生了重要影响。

 

1972年,贾里尼克到IBM沃森实验室做学术休假访问时,无意中领导了语音识别实验室,两年后他选择留在IBM。

 

贾里尼克等提出了统计语音识别的理论框架。语音识别之前被认为应该用模式匹配来解决,而贾里尼克用统计思路来解决,简洁地用两个隐马尔可夫模型(Hidden Markov Model)——声学模型和语言模型来清楚概括语音识别。这个框架至今仍对语音和语言处理有着深远影响。

 

1999年,国际声学、语音与信号处理国际会议(ICASSP)在凤凰城召开,早已当选美国工程院院士的贾里尼克在大会上做了一个报告,题目是《从水门事件到莫尼卡·莱温斯基》。这倒不是哗众取宠,而是两件事都和语音有联系,而且两件事时间跨度和语音识别同样很漫长。

 

导致尼克松、克林顿下台的水门事件和莱温斯基事件,都与语音处理相关联,这两件事从发生水门事件的1972年,到因莱温斯基事件弹劾克林顿的1998年,时间跨度26年。隐马尔可夫模型处理语音,也是从1972年开始,一直持续到贾里尼克作报告时还在进行,而且还将延续下去。

 

隐马尔可夫模型最初是由L·E·鲍姆(L.E.Baum)和其他一些学者发表在一系列的统计学论文中,随后在语音识别、自然语言处理以及生物信息等领域体现了很大的价值。这个模型源于20世纪初的苏联数学家马尔可夫,20世纪70年代后美国的一些大学和研究所开始把这个模型用于语音识别,技术上集大成者是英国的剑桥大学。

 

对隐马尔可夫模型的研究,不但鼓舞了语音识别研究者们,甚至也带动了政府的关注。从1971年开始,DARPA (国防先进研究计划署) 投入 1500万美元,组织麻省理工学院、加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、斯坦福研究所(Stanford Research Institute,SRI)等著名等高校研究机构,计划用三年时间建立计算机连续语音识别系统。这是当时规模最大的语音识别项目,美国把语音信息研究作为战略基础研究。

 


剑桥语音的黄金十年

1984年,NIST(美国国家标准及技术研究所)和DARPA做了一件类似于后来图像识别领域ImageNet的大事,它们决定出资开展语音识别评测标准的研究,希望能科学评估各种语音识别系统的性能。这件事影响了语音识别的历史。

 

德州仪器公司(TI)、麻省理工学院和SRI合作构建了第一个声学-音素连续语音语料库,并制定了数据采集标准,成为世界第一个语音评测平台。这一被称为TIMIT的数据库应用至今,语音识别研究者们有了评测算法的标准数据集。NIST举办的语音识别评测全球竞赛由此开始。

 

NIST举办的语音识别评测全球竞赛见证了剑桥语音的腾飞


语音识别所研究的数据类型历经几次升级,由最早的孤立词语音发展到自然连续语音。然后,选取朗读“华尔街杂志”(Wall Street Journal)的语音录成标准数据库。这个数据集的词汇量大约为5000到20 000,“大词汇连续语音识别”就始于此。上世纪90年代中期以后,广播新闻这样自发产生的连续语音、电话对话语音、丰富的语音文本、多语种语音等等也不断加入评测,NIST大赛越来越具有挑战性。

 

大赛1988年开始,1992年扩大到美国之外,成为全球大赛,剑桥大学等非美国机构,在那一年加入。1993年,系统升级,测试难度陡然增加,剑桥大学却夺取冠军。一战成名,剑桥语音成为全球语音识别界关注的焦点。

 

成功的秘密在于,从1989年起,剑桥大学工程系机器智能实验室研究组就在史蒂夫·杨(Steve Young)教授的主持下开发 “隐马尔可夫模型工具包”(Hidden markov model Tool Kit, HTK)。HTK软件包不是简单的语音识别系统,而是完整的研究平台。在这个平台上,研究者可以方便地试验各种新式算法,搭建不同的语音识别系统。这样,HTK很快就成为了语音识别研究事实上的标准。而拥有平台的剑桥语音研究人员,可谓近水楼台先得月。

 

于是,剑桥大学语音识别研究在大赛中连续十年取得优异成绩,许多影响深远的语音识别技术陆续在剑桥产生,并成为后来的主流经典算法,这些成就轰动了全世界,被称为剑桥语音的黄金十年。

 


商业化与Naunce垄断

 语音识别也逐渐开始商业化。1995年,IBM开发出离散词汇听写软件,也就是后来的语音识别软件Via Voice的前身。IBM当时将语音识别率从70%提升到90%,同时识别词库的规模从几百单词上升到几万个,语音识别从实验室走向实际应用。1997年,IBM推出了世界上第一个中文连续语音识别产品——Via Voice 4.0。该软件成功突破连续语音、大词汇量、非特定人的难关,据称解决了汉语同音字多、有声调、口音复杂等问题,可以帮助人们从键盘输入中解脱出来,IBM认为这是汉字输入的重要里程碑。

 

不过,中文版的Via Voice4.0刚推出,我就满怀希望地试用了这个软件,但感到很失望,远没有达到解放双手的愿望,使人感到实用的语音识别系统还在路上。当时,我并不知道,语音识别的大师们在此几年前已经纷纷离开了IBM。

 

剑桥大学的HTK语音开发平台也开始商业化,由一家公司拥有,后来曾经被微软收购。但幸运的是微软重新把HTK核心技术的使用权送还给剑桥大学,全球语音识别开发者仍然可以自由使用。可是,再优秀的技术也有时间局限性,直到进入21世纪的头十年,统治语音识别技术几十年的,仍然是混合高斯-隐马尔科夫模型(GMM-HMM),在数据量受限的大环境下,研究者们花费大量的时间优化GMM-HMM模型结构的细节,可能只是为了一到两个百分点的性能提高。

 

语音识别专家、数据魔方智慧科技CEO张晴晴博士这样描述当时的情况:“深度学习之前,做语音识别是门槛很高的事情。语音识别涉及到的技术模块很多。信号处理、语音/语言建模、发音字典、解码、后处理等等,每个模块都足够一个博士研究好几年。这个领域的研究者,没有十年八年的技术深耕,很难做出有价值的成果。”

 

在这样的研究环境下,掌握核心算法的公司很容易形成技术垄断。美国语音巨头Nuance就是这样的典型案例。1992年创立,2005年在纳斯达克上市的这家技术型公司,一直深耕统计方法的语音技术,拥有大量的核心算法和数千件专利。苹果Siri采用了他们的语音技术后,Nuance公司迅速走红,语音识别方面的技术实力也浮出水面。这家名不见经传、闷声钻研技术的公司瞬间被各大媒体相继曝光。手机、家电、汽车等人机语音交互产品中,大量嵌入他们的语音识别系统,客户都是苹果、三星这样的知名厂商。

 

Nuance擅长于利用自己在语音处理方面的知识产权打击竞争对手,用诉讼手段削弱具有创新力的对手,然后低价并购或让其破产,是Nuance的惯用手段。很长时间内,Nuance拥有绝对话语权,整个语音行业生态是——这棵大树下寸草不生。

 


深度学习带来历史性突破

学术界寻求理论突破,产业界希望打破垄断,这样期待的氛围中,深刻影响语音识别的重要角色在2006年出现了。没错,我说的是深度学习,或者说深度神经网络。

 

2006 年的一天,时任西雅图微软研究院研究员的邓力看到欣顿的一篇关于深度学习的论文《关于深度置信网络的一种快速学习算法》(A fast learning algorithm for deep belief nets),眼前一亮,感到自己绞尽脑汁没有突破的问题,欣顿轻而易举就解决了。

 

邓力推动了语音识别研究向深度学习的转变


邓力在中国科技大学本科毕业后,到美国念完博士,当时在微软研究院领导一个小组研究语音识别。深度学习出现之前,他做了很多研究,包括计算人工神经网络、上世纪90 年代中后期开始流行的贝叶斯统计模型等等,但始终不理想,现在深度学习让他看到希望。

 

邓力很早就认识欣顿,上世纪90年代初,在加拿大滑铁卢大学当教授时,他为博士生论文答辩聘请的外校评审教授,正是欣顿。

 

2009 年,邓力邀请欣顿到西雅图微软研究院一起讨论,从此微软语音识别研究转入了深度学习方向。邓力与俞栋合著的《解析深度学习——语音识别实践》也成了全球很多地方大学本科或研究生语音处理课程的经典教科书或参考书。

 

谷歌稍晚了一点,但追赶得很快。出门问问公司CTO雷欣回忆,当年他在谷歌语音识别组担任研究科学家时,2011年夏天,欣顿的博士生纳瓦迪普·杰特列(Navdeep Jaitly)来语音识别组实习,建议用深度神经网络来替代高斯混合模型做声学模型。短短的夏季实习时间里,纳瓦迪普在实验中获得了显著超出谷歌产原系统的识别结果。之后,谷歌工程师们很快在几个月里将实验工程化产品化,2012年初发布在谷歌Voice Search主产品中。这是业界首次将深度学习用于大词汇量语音识别产品中。2012年下半年,雷欣负责将深度神经网络发布至Android JellyBean版本中,这也是业界首次将深度学习用于嵌入式语音识别产品。

 

微软语音识别研究取得惊人突破。2016年10月18日,由微软首席语音科学家黄学东博士带领的语音团队在权威的产业标准 Switchboard 语音识别基准测试中,实现了对话语音识别词错率5.9%,首次达到与专业速记员持平而优于绝大多数人的表现。这被认为是AI领域历史性的突破。黄学东博士自豪地表示:在对话语音识别中,我们有史以来第一次让计算机有了和人类同等的水平。

 

百度也不示弱,事任首席科学家的吴恩达立即发推特祝贺微软的语音识别突破,同时话中有话地介绍一年前百度在中文语音识别上就达到的成绩。百度的Deep Speech2的短语识别的词错率已经降到了3.7%,也达到或超过人类水平。微软也很快作出回应,认为短语识别与对话识别,场景不同,后者难度要大很多,不可同日而语。双方暗藏机锋。

 


未来:语音应用场景创新的沃土

这样的交锋,说明巨头们都高度重视用深度学习解决语音识别问题,这带来了产业格局的变化。美国一下子出现了几十家应用深度学习的语音识别技术公司,识别率不断提升并且趋于同一水平。同时,专利和算法作用越来越小,场景应用能力和客户数据资源在竞争中变得越来越重要。于是,曾挟核心技术在语音领域呼风唤雨的Nuance,垄断地位迅速被瓦解,业绩不断下滑,江河日下,沦落到不时传出被收购消息的尴尬境地。

 

在语音识别应用场景创新方面,亚马逊的Alexa语音交互平台非常成功。用Echo交互式蓝牙音箱,语音通过内置接口,进入 Alexa平台进行语音交互。2014年Echo推出后,两年多时间内应用场景爆炸性增长,从同步语音数据、播放音乐发展到几十种家电的智能家居设备控制,再发展到语音购物、语音支付、语音叫外卖、语音打车等多场景应用,还可以和家人分享音乐库、电子商城购物车、工作计划表、日程等。语音购物品种已经扩大到百万种,而且还可以语音切换账户、语音追踪商品物流情况。亚马逊利用自己的优势,让语音识别软硬件在互联网环境下融合,并进入物联网的广阔天地。亚马逊的Alexa人机语音交互玩得出神入化,以至于有人惊呼:“这就像是试图成为语音方面的谷歌或者语音方面的Windows操作系统,亚马逊是要拿走整个市场。”

 

Echo用蓝牙音箱进行语音交互,涉及到语音识别的远场识别。与贴近话筒近距离说话不同,Echo的语音识别属于远场识别,由于远处声源声波的多次反射产生的回声混响,好像由独唱变成了多人多声部合唱。同时,远场识别噪声增大。这些,都大大提升识别难度,语音处理自然复杂很多。

 

这些特殊应用场景,成为语音识别的新方向,也成为创业者的新机会。

 

张晴晴博士这样分析语音识别的创业环境:“语音识别的门槛正快速降低。在大数据和云计算的推动下,深度神经网络开始体现出强大的数据记忆能力,由此大大降低了语音建模难度。深度学习在数学原理上并不复杂并拥有大量开源工具,让初学者能够很快上手。语音行业从核心算法的垄断,转向对数据的垄断和对应用场景的理解和把握。语音识别的战场从科研界转向企业界,这给新来者提供难得的弯道超车机会。语音识别行业创业的春天已经到来。” 

 

非常可喜的是,中文语音处理行业也迎来新机遇。一个很有趣的现象是,今天全球AI领域华人专家众多,尤其在语音领域更为密集,名人就能够数出来一大批。为什么这么多华人科学家从事语音科学?一个原因是,长期以来语音识别等领域研究工作十分艰苦,华人勤奋好学钻研、吃苦耐劳工作的精神,让他们坚守在这里。另外一个原因是,中文语音处理市场非常广阔。

 

2017年刚入选微软院士的黄学东博士说:从语音识别角度讲,中文识别更容易,中文只有约四百个音节(不考虑声调因素)。微软分别评测过中英文,中文识别率要高一些。在所有语言里面,意大利文、西班牙文、中文,这三种语言,语音识别率比法文、英文之类要高,其中法文最难。当然,语义理解对任何语言都很难。

 

这是最有挑战的课题。这也是中国人面临的机遇与挑战。

 

依托中文市场,伴随中文语音技术的迅猛发展,云知声、出门问问等新企业应运而生,一大批中国AI企业崛起。更可喜的是,除了知名中国互联网科技公司在语音方面的进取外,以语音为特色的AI公司如科大讯飞等,也已经具备挑战国际巨头的能力。

 

在普及层面上,采用云识别的中文语音输入系统,已经渐渐成为手机和各种应用设备人机交互界面标配,语音技术不但已经解放了双手,还正在更广泛地进入、改变我们的生活。

 

重建巴别塔的第一块基石已经深深埋下。机器已经在聆听,它听得越来越清楚。



AI传奇专栏回顾:

第四回 | 助飞的双翼

第三回 | “深度学习之父”杰夫·欣顿

第二回 | AI的酷暑与寒冬

第一回 | 2016,AI春暖花开

回复 鲜花 鸡蛋

使用道具 举报

 楼主| 发表于 2017-6-26 03:35 AM | 显示全部楼层

语音合成,一位在校生书写的讯飞传奇 | 总编专栏 

2017-06-10 陈宗周 环球科学ScientificAmerican

本文是《环球科学》总编、社长陈宗周先生撰写的系列专栏“AI传奇”的第六回。通过该专栏,陈宗周先生将带领我们回顾AI在过去60年走过的风风雨雨,也前瞻AI将如何塑造人类社会的未来。

 

陈宗周是《环球科学》杂志社社长,《电脑报》创始人。



霍金又说话了,谈论AI前景与人类命运。面对这位伟大的科学家,他说的每句话,人们都会认真倾听。可是,霍金非常特殊,1985年之后已不能开口说话。他的深邃思想,是如何变成语音,传到我们耳中?这是AI的帮助,让他能用语言交流,甚至还能在讲演中倾谈。


读过《时间简史》、《果壳中的宇宙》,听过黑洞、宇宙大爆炸等宇宙学故事的人,都会或多或少知道霍金,他是一个传奇。物理学家、宇宙学家、思想家,许多重要学术头衔集中于他身上,各种荣誉雪片般飞向他。


他的传奇,还在于他非凡的人生经历。斯蒂芬·霍金(Stephen Hawking)1942年出生于英国,17岁进入牛津大学,后来转到剑桥大学学习宇宙学。21岁那年得了很少见的运动神经疾病,从此,他在轮椅上躺了50多年。


他仿佛一生都在挑战死神与命运,21岁时医生预测他的生命不会超过两年。两年后,他博士毕业。43岁那年,他到日内瓦开会患上肺炎,垂危中医生询问他妻子,是否考虑放弃生命维持器。妻子断然拒绝,把他转回剑桥的医院,切开气管挽救了他的生命,只是从此他再也不能说话了。


霍金被称为世界上最聪明的人之一,偏瘫在轮椅上,大脑却依然在高速运转,思想仍在奔流,深刻的见解,奇妙的想法源源不断涌出。不能说话怎么传达他的思想?包括语音合成在内的一系列AI技术,让霍金创造了不开口也能说话的奇迹。


语音合成器帮助霍金“说话”


起初,霍金使用运行于Apple II 电脑的语音合成器说话。他用手操作,以每分钟 15 个单词的速度与人交流。后来,电脑和语音合成器不断升级,英特尔公司一直为霍金提供技术支持。


但霍金控制手指运动的神经也在不断恶化。到 2008 年,霍金的手就不能使用敲击器了。解决办法是在霍金眼镜上安放“脸颊开关”,通过红外光来监测霍金的面颊肌肉是否收紧。此后,他可以只通过一块肌肉来上网、写邮件、写书和说话。


霍金的交流能力仍然在不断下降,到 2011 年,他一分钟只能说出一、两个单词。于是他写信向“摩尔定律”发明者、英特尔公司创始人之一的戈登·摩尔求助。


2012 年 1 月 8 日,在霍金 70 岁的“宇宙状态”生日聚会上,来了一群英特尔的人机交互专家。而此时的霍金,连自己的这次重要活动都无法出席。


AI和霍金本人共同创造的奇迹又出现了。软硬件升级后效果良好,程序会在眼前屏幕上显示一个键盘,同时还配有单词预测算法,根据上下文的联系提供相应单词,供霍金选用。当光标逐行逐列自动扫过屏幕和键盘时,霍金可以用脸颊开关让光标停止在选中的单词上,用键盘完成操作。还可以控制窗口中的鼠标,操作其他软件。霍金又可以上网、写论文、说话了,甚至还可以用 Skype进行网络视频通话。


随着他身体变化,霍金的专用人机交互系统还在不断调整,试验过不少新技术。今天我们看到霍金出现在讲演中时,坐在轮椅中的他,总是被一堆AI设备包围,没有AI就没有霍金的声音。霍金语音被称为“完美的保罗” ,是他和机器共同制造的完美之声。


霍金说话的故事,是语音合成历史的一部分。



语音合成发展史


语音合成又称文本语音转换(Text to Speech,TTS)技术,顾名思义,是把文本信息转化成语音信息。相对于语音识别 (Automatic Speech Recognition, ASR),它被认为是比较简单的技术。语音合成的历史,似乎也是一种印证。人的语音,本质上是发音器官震动,产生声波传出。模仿人声,最古老的方法是使用乐器。到19世纪,就可以用机械方法产生语音了。


进入电子时代的1939年,贝尔实验室H· 杜德利(H . Dudley)制作出第一台电子合成器,这是用共振峰原理制作的语音合成器,而共振峰技术至今还在使用。1960年瑞典科学家G·范特(Gunnar Fant) 的著作《语音产生的声学理论》,建立了现代语音分析、合成的理论基础。理论极大推动了语音合成技术的进步,1980年,D·克拉特(D. Klatt)设计出串/并联混合型共振峰合成器,已经可以模拟不同的嗓音。20世纪80年代末,基音同步叠加时域波形修改(PSOLA)算法被提出,较好地解决了语音段的拼接问题。


20世纪90年代,随着计算和存储能力大幅度提升,基于大语料库的单元挑选与波形拼接合成方法出现,可以合成出高质量的自然人语音。


20世纪末,可训练的语音合成方法(Trainable TTS)提出,使系统规模大大缩小,适合嵌入式设备应用,满足多语种语音合成需求。


进入21世纪,语音合成飞速发展,在达到真人说话水平后,开始关注音色、情感等,使合成的声音更自然和有个性。


到20世纪90年代,语音合成已经可以商业应用。今天全球有名的两家语音公司正是在这段时候相继创立。这就是分别在1992年和1999年创立的Nuance和科大讯飞。两家公司都脱胎于大学,前者是斯坦福大学,后者是中国科技大学。两家公司起步都是从语音合成开始。


为什么当年研发和生产销售实力雄厚的IT大厂商没有迅速进入语音合成市场? 这令人有点奇怪。一种可能的解释是,语音识别更有挑战性和战略意义,是必须占领的竞争制高点。所以,当大公司的精兵强将在语音识别战场鏖战而没有很快看到商业化战果的时候,从语音合成出发的创业者却快速打开了语音市场。


技术实际上没有简单的。任何一项技术,如果深挖下去,都有无穷的开拓空间。各种技术之间很多也都有联系,从研究和商业的角度,都可以互相转化、融合。语音合成和语音识别的技术和市场本来就联系紧密,好像进入一个套房,敲开大门,进入房间就容易了。Nuance和科大讯飞两家语音公司实际上都是从语音合成起步,延伸到语音处理的全产业链。


Nuance的故事我们上一回已经简单讲过了,由于技术壁垒已经不复存在,而靠此垄断的它,现在情况很不妙。后起的讯飞却渐入佳境,更值得关注。



刘庆峰与科大讯飞


讯飞这家中国最大的语音公司,也是国内第一家由在校学生创办而后来上市的公司。写下这一传奇的学生,名字叫刘庆峰。


刘庆峰1973年出生,安徽泾县人。17岁考入中国科技大学。19岁时因专业成绩突出,破格进入学校与国家智能计算机研究开发中心共同设立的“人机语音通信实验室”参与科研。22岁就成为该实验室承担的863项目”KD系列汉语文语转换系统”的主要负责人。他的 “基于LMA模型的语音合成器”、“基于数字串外推的韵律构建模型”、“听感量化”等语音合成新方法,都是在学生期间完成。他研制的中文语音合成系统,在国内外权威评比中关键指标均名列第一。也是在学生期间,他被称为“在中文语音合成技术研究上做出了国际领先成果”。


刘庆峰与科大讯飞


沿着这条路,刘庆峰可能成为顶尖的语音科学家。但就在念博士的第二年,他选择了另一条路。1999年,他带领十几位同学在校创业,讯飞公司在那一年的12月份诞生。


他最初的志向是要“让计算机象人一样开口说话”。讯飞公司把他和学校的语音合成科研成果迅速转化为产品,并不断发展。很快MP3、电子书、GPS导航器、玩具等等消费电子产品中,都内置讯飞的语音合成模块,华为、中信、神州数码等系统提供商,也采用了讯飞的语音组件。各种中文语音合成应答服务场合,机器的声音越来越美妙,越来越逼近真人,甚至还可以模仿使用者喜欢的名人,这都是讯飞语音合成系统在背后支持。在中文语音合成市场上,讯飞已经占有80%的份额。


讯飞在语音合成技术上深耕,不仅中文语音合成是全球最好,并且多语种合成也做到了全球领先。2006年开始,讯飞参加权威语音合成竞赛“暴风雪挑战赛”(Blizzard Challenge )。这项大赛有卡耐基梅隆大学、爱丁堡大学、IBM研究院、微软亚洲研究院等世界一流机构参加,讯飞连续11年夺冠。2016年比赛主题是英语的故事级语音合成,要求声情并茂,难度很大。讯飞是全球唯一让英语语音合成超过普通人说话水平的机构。


刘庆峰要“让计算机象人一样开口说话”的理想已经实现了,但是讯飞的脚步并没有停留在语音合成。2010年4月,苹果收购语音识别技术提供商siri。讯飞也果断进入移动语音识别领域并迅速取得成功。在2010年10月底,讯飞语音云发布,移动语音输入第一版面世,讯飞用自己语音技术的深厚积累,在中文语音识别领域突破。到第二年10月,iPhone4S发布时,已经有语音合成功能的Siri,还不能支持中文语音,中国的苹果用户用上中文版Siri,还要等到2012年10月。这时,讯飞的语音交互系统,已经牢牢占领了中文市场。


讯飞对深度学习同样敏锐, 2010年就开始了深度神经网络语音识别研究,并且在2011年上线首个深度神经网络中文语音识别系统。深度学习全面用于讯飞语音处理,与国外同行基本没有时差。微软研究院负责语音识别的邓力博士是中国科技大学校友,2010年到 2012年间接受侯建国校长邀请访问了科大和科大讯飞。邓力是最早把深度学习引用语音识别领域的人,他到处推广深度学习的方法并进行学术讨论,他在中国的这些交流也是开始于科大。所以,邓力评价,科大讯飞的深度学习技术确实在中国是非常早就已经开始应用,只稍滞后于微软。


2016年9月13日,第四届国际多通道语音分离和识别大赛(CHiME)的结果在谷歌公司揭晓,讯飞取得本届赛事全部三个项目的最好成绩,讯飞中文语音识别保持领先的同时,在英语语音识别方面向国际同行发起冲击。


从语音合成出发的讯飞公司,目标是发展成为全球AI领先企业之一。刘庆峰在2017年两会期间建议,中国要尽快组建AI联盟,目标高远。这家语音行业龙头企业,也是中国AI企业发展的缩影。



百花齐放的语音交互


随着语音识别、自然语言理解和语音合成等技术的成熟,融合这些技术的语音交互应用也随之迅猛发展,近年来在智能市场出尽风头。


尽管语音交互较早就出现,但人们还是认为是苹果手机的Siri首次成功地将其推向大规模应用。


在2011年9月20日iPhone4S的发布会上,苹果的一位高管向iPhone发问:“你是谁?”。手机里的Siri立刻回答:“我是你忠实的助手。” 被媒体津津乐道渲染的Siri与人这一次经典问答,正好描述出Siri这类语音交互系统最重要的特征,它是人类的语音助手。所以,它常被形象地称为语音助理,也叫智能助理。


2010年4月,苹果以2亿美元收购了Siri 时,公司只有24人的开发团队。但苹果看好这一方向,收购后甚至在相当长的时间内把Siri技术封闭在苹果公司内,不开放与第三方的合作,作为自己的竞争利器。


作为语音助理,Siri现在有很多功能:陪你聊天,和你开玩笑,查询各种信息——还能通过屏幕朗读功能读出这些信息,用语音拨打电话、收发邮件,在备忘录里安排时间并按时提醒你,查找歌曲或者在听歌的时候让它告诉你是什么歌等等。Siri的功能,还在不断发展。



作为全球最大的搜索公司,谷歌当然不甘落后。在推出不太成功的语音助理Google Now和经历了Now团队全部出走事件之后,谷歌公司借助自己强大的AI能力,在2016年10月隆重发布新一代语音助理平台Google Assistant,支持谷歌旗下的智能软硬件,如聊天应用Allo、家居应用设备Google Home、可穿戴设备Android Wear、智能手机Pixel、Android汽车、Android电视等等。谷歌立志在Android操作系统的生态圈里,全面推广语音交互服务。


目前Google Assistant还只能支持英文和德文,2017年春天才开始支持三星、华为等少数手机厂商。但对比应用和测试了苹果Siri和Google Assistant个人和机构后的初步评价是,前者长于聊天和娱乐,而后者长于提供实际的工作和生活帮助。


相对于苹果、谷歌分别依托智能手机和搜索优势,亚马逊Alexa则借用自己的电子商务领地,迅速用智能音箱Echo打进语音交互市场,大玩多场景应用;微软Cortana(小娜)借助操作系统多年霸主地位,推出跨平台的语音交互系统。


2017年6月的苹果公司WWDC大会上,在大家的期望声中,苹果终于发布了智能音箱HomePod,正面迎接亚马逊Echo的挑战。利用自己 Siri平台的优势,苹果进一步用智能硬件产品HomePod全力捍卫语音交互市场。


在语音交互这一兵家必争之地,科技巨头们的大战,才刚刚开始。


中国的科技公司也不示弱,2015年5月,京东商城和讯飞合作推出叮咚(DingDong)智能音箱系统,虽然在听音乐、语音购物、语音控制家电、查天气等信息等场景应用方面还在追赶亚马逊,但在讯飞中文语音技术和AIUI语音智能交互平台的支持下,却有方言识别等独特的创新。


百度则依托自己的硅谷 AI 实验室(SVAIL)研发出基于深度学习的语音识别系统Deep Speech和语音实时合成系统DeepVoice。DeepVoice在同样硬件环境下,比谷歌2016年 9 月发布的原始音频波形深度生成模型 WaveNet 要快上 400 倍,而这个WaveNet在发布时,还被称为语音合成的革命性突破。


百度大气宣布,语音平台永远免费。还开放了大量语音专利,和海尔、京东、中兴、普天等 20 多家企业组建了智能语音知识产权产业联盟。百度在语音交互战场,志在必得。


中国语音交互市场,也将八仙过海,热闹非凡。


语言是人类最重要的交互工具,语音是语言的美丽外壳。AI催生出的这一场人机语音交互巨变,让聋子听音,使哑巴说话,万物语音互联的神奇世界,正在到来。



AI传奇专栏回顾:

第五回 | 深度学习登台语音识别

第四回 | 助飞的双翼

第三回 | “深度学习之父”杰夫·欣顿

第二回 | AI的酷暑与寒冬

第一回 | 2016,AI春暖花开


回复 鲜花 鸡蛋

使用道具 举报

 楼主| 发表于 2017-6-26 03:37 AM | 显示全部楼层

机器翻译:生于冷战,却为人类重建巴别塔 | 总编专栏 

2017-06-17 陈宗周 环球科学ScientificAmerican

本文是《环球科学》总编、社长陈宗周先生撰写的系列专栏“AI传奇”的第七回。在这一回中,陈宗周先生将带领我们回顾机器翻译半个多世纪的发展史。这个在诞生后不久一度陷入低潮的领域,是如何实现飞跃,并可能在不久的将来打破不同民族间的语言壁垒?

 


陈宗周是《环球科学》杂志社社长,《电脑报》创始人。



2017年3月的全国“两会”上,李克强总理来到安徽代表团。讯飞公司董事长刘庆峰拿起桌子上一部手机模样的小设备,说出总理以前对讯飞的勉励——让世界聆听我们的声音,机器马上翻译成流利的英文。他又说“这个哈密瓜很甜”,机器立刻又翻译成流利的维吾尔语。这部叫晓译多语种翻译机的小机器,是讯飞公司的产品。


2016年11月的一天,东京大学教授、人机交互专家历本純一(Jun Rekimoto),在社交网络上发现一个消息:谷歌翻译有了巨大提升。他亲自访问了谷歌翻译的页面开始体验,他被震惊了。


他对比了两位日本翻译家所翻译的《了不起的盖茨比》中的几句话与谷歌翻译出的结果。他认为,谷歌的日语翻译非常流畅,比起翻译家的作品,对他而言,更加易懂。


他随后又在谷歌翻译上输入美国作家海明威作品的日文版,翻译为英文,结果发现机器翻译与海明威英文原著有着惊人的相似度。


上面的两个场景都和机器翻译有关,前者叫语音翻译,后者叫文本翻译,而这两种翻译,核心问题都在于自然语言理解。



机器翻译的早期发展


机器翻译(Mchine Translation,MT),又称自动翻译,是用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。机器翻译是AI中的明星技术。因为它是实现不同民族不同语言人群无障碍交流的最有力助手。圆满解决机器翻译难题,重建巴别塔的梦想也就实现了。


正像计算机是被战争催生出一样,机器翻译这个想法的出现,也与军事有关。1946 年,第一台计算机ENIAC诞生后不久,洛克菲勒基金会的美国科学家瓦伦·威弗(Warren Weaver)等人在思考计算机未来应用时,想到了第二次世界大战期间,图灵用机器破译密码取得的巨大成功。他们认为,语言翻译与破译密码相似,都是把一种符号转换成另一种符号,同样可以用机器来完成。沿着这样的思路,1949年,威弗发表《翻译备忘录》,正式提出机器翻译的思想。


机器翻译的先驱——瓦伦·威弗


机器翻译的想法提出后立即受到重视,美苏两国当时正值冷战期间,俄文情报资料的翻译,需求量很大。1954年,美国乔治城大学和IBM共建的实验室研制出第一台机器翻译演示系统。这个现在看来比玩具好不了多少的系统,可以将俄语翻成英文。系统容纳250个单词,遵循六条语法规则,只可以翻译49个仔细挑选的句子。但是,这仍然是个了不起的成就,已经足以点燃人们的热情。记者这样兴奋地报道:今天,电子大脑首次将俄语译成英语。美国国防机构和计算机科学家乐观期望,机器翻译将在五年之内实现。


机器翻译也吸引了苏联、日本和欧洲国家的研究兴趣。一时间,各国政府纷纷拨款,全球机器翻译热潮兴起。


好景不长,机器翻译研究进展缓慢,开始受到广泛质疑。1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,ALPAC),进行为期两年的调研和测试。1966年11月,该委员会公布了题为《语言与机器》的阿尔帕克(ALPAC)报告,全面否定了机器翻译的可行性,认为十年研究未能完成预期目标,并在近期或可以预见的未来,也没有开发出实用的机器翻译系统的希望,建议停止经费支持。报告给了正在蓬勃发展的机器翻译当头一棒,它很快转入低潮。


为什么机器翻译研究进展缓慢,这是因为自然语言理解当时很难取得实质性突破。自然语言理解(Natural Language Understanding,NLU),是解决对语音信息和文本信息的理解问题的重要AI学科。通俗说,是要解决要听得懂和看得懂这两个问题。语音翻译和文本翻译虽然也有各自关注的技术难点,但共同面对的核心难题都是自然语言理解。这是一个很高、甚至是终极的目标,所以许多研究者喜欢用另外一个词,即自然语言处理(Natural Language Processing,NLP)来描述这一学科,强调过程而不是目的。


人类社会在漫漫长路中形成的语言,是一个非常复杂的系统。最初的研究者,对问题的复杂性缺乏深入了解。从方法上,他们希望迅速找到语言规则,就像找到密码的编码规则就很容易破译密码一样,如果找到语言规则,就能够理解自然语言,机器翻译难题就解决了。


但是,语言的规则实在太复杂了。就以文法规则来说吧,有人计算过,如果仅仅覆盖20%的真实语句,文法规则至少需要数万条。而如果要覆盖50%的真实语句,以后每增加一个新句子,就要新增数条文法规则。由于语言是发展和流动的,真实句子实际上变化无穷,文法规则难以穷尽。


再从计算复杂度考虑,图灵奖得主高德納(Donald Ervin Knuth)从理论上指出了文法与计算复杂度的关系。如果上下文无关,计算复杂度是语句长度(即有多少单词)的二次方;而如果上下文有关,计算复杂度是语句长度的六次方。单单分析一个有二三十个单词的句子的文法,就是用今天的高性能计算机,也要计算几分钟。所以,要完全从规则上理解上下文有关联性的一篇文章或者一段长语音的文法,复杂度就会使计算耗时难以想象。在上世纪70年代,即使是拥有大型计算机的IBM,也做不到用文法规则的方法来分析一些真实语句。


当然,上述分析是在非限制性的语言应用环境中得出的结论。在实际应用中,语言的应用都是限制性的,比如不同文化、不同学科、不同情景下应用语言都有各自的特征。在限制性语言应用环境中,问题要简化很多。于是,基于语言规则的机器翻译仍然在努力前行,也取得了一定的成果。而另一种方法,即基于统计的机器翻译开始崭露头角。



统计翻译的登基之路


我们在第五回提到上世纪70年代IBM沃森实验室的贾里尼克,他提出了统计语音识别的理论框架,简洁地用两个隐马尔可夫模型——声学模型和语言模型来清晰概括语音识别。这个框架对语音和语言处理都有着深远影响。从此,自然语言处理开始走上统计方法之路。


对基于语言规则的机器翻译系统来说,需要大量特定语言的语言学家编撰相应语言的大型词典,制定大量的语法、句法、语义学有关的规则。词典和语法规则库构成翻译知识库,机器根据这些词典和规则进行翻译。这与人通过查词典和语法书理解语言并进行翻译十分类似。其中,规则很繁复,对于由数十万词汇构成的词库,翻译系统包含的语法规则可能高达数万条。


而统计翻译则避开语言规则。统计语言学开创人贾里尼克有一句名言:我每开除一个语言学家,语音识别的正确率就提高1%。这句极端的话,说明他对语言规则的无视。


统计翻译用大量的双语文本,建立两种语言的平行语料库。翻译时对单词通过语料库进行匹配(后来又发展到对词组、短语乃至整个句子进行匹配),然后根据匹配概率,来评判和选择翻译结果。


统计翻译的另外一种方法是建立双语对照的实例库,这是一个更庞大的语料库。翻译时根据实例进行匹配。


统计翻译避开繁杂的语法规则,显而易见更为简单,而且是威弗提出《翻译备忘录》时的原始想法。但是,统计翻译需要大规模的语料库,这在当时并不容易做到。所以,自然语言处理从基于规则转向基于统计并没有那么简单,而是经历了很长的过程。基于规则的自然语言处理,后来在采用新技术以后,仍然在发挥作用。不过,随着互联网的普及,大规模语料库逐步建成,统计翻译最终成为主角。


机器翻译行业最早的开发者和软件提供商Systran,就是见证这一过程的活样板。Systran是老一代基于规则的机器翻译技术的商业化代表,于1968由彼得·托马(Peter Toma)创办。托马是一位科学家,当时在前面提到的美国乔治城大学机器翻译项目组工作,之后他以大学机器翻译研发小组为班底,创办Systran机器翻译公司。在ALPAC报告后,政府资助经费锐减,Systran公司却生存下来,是少数几个活下来的机器翻译公司之一。1986年,Systran被卖给一个法国家族,后来在法国上市;2014年,又卖给一家韩国公司。


Systran公司


这家几十人的小公司,一直靠自己的技术从上世纪60年代走到今天。慢慢发展到支持多语种互译,产品大量内嵌在雅虎、谷歌、美国在线等公司的翻译系统中。Systran公司年销售额只有1000多万美元,但在100亿美元的机器翻译市场中,却一度占了内嵌翻译引擎很大的份额。“我们公司如此之小,可我们又是最大的。”Systran 公司董事长自豪地说。


关键的一战终于在2005年打响。已经成为互联网搜索巨头的谷歌公司虽然采用了Systran的规则翻译技术,但一直想充分利用自己的大语料库。从2002年起,谷歌挖来统计语言处理天才弗朗兹·奥克(Franz Och), 组建机器翻译团队。2005年夏天,由奥克设计、尚处于实验阶段的Google翻译系统,在NIST(美国国家标准与技术研究院)组织的机器翻译竞赛中大获全胜,比赛提供100 篇新闻文稿,将阿拉伯语或汉语译成英语,谷歌公司的系统在所有类别上全胜,击败包括IBM在内的全部对手。


奥克赛后披露,他们为自己的系统提供了相当于100万部图书的文本语料进行学习,这成为了提高翻译质量的关键。他还把公司当时采用的Systran中英翻译系统,与其基于统计的实验系统作了对比,认为后者明显优于前者。


这场竞赛,被看成是统计机器翻译系统正式登基的标志。



巴别塔终将建成?


2007年10月,谷歌公司终止与Systran合作,采用自己的统计机器翻译系统。2010年,Systran只好转向,采用规则和统计混合机器翻译系统,后来又引入深度神经网络技术。Systran的变化,说明基于统计的深度神经网络自然语言处理和翻译系统,已经成为主流。但同时,统计翻译也开始重视语法、句法和语义的一些细节,用来完善机器翻译系统。


从此,机器翻译高歌猛进,不断向各个应用纵深发展,也成为衡量巨头科技公司AI水平的一个标志。


谷歌翻译是最有名的机器翻译产品,2006年上线以来,已经能支持 103 种语言,每天处理1800 万次翻译,共1400亿单词,一直是业界的标杆。2016年9月28日,谷歌发布新的神经机器翻译系统GNMT,同时发布了PC和移动版。这套系统克服了传统方法将句子分割为不同片段进行翻译的缺点,而是充分利用上下文信息,对句子进行整体的编码和解码,从而产生更为流畅的译文。据说,在新技术使用后,翻译错误可减少60%及以上。谷歌新的翻译系统在支持困难的中-英文翻译上,有了很大的提升。


谷歌大脑的研究团队甚至表示,虽然它还会犯一些人类译员不会犯的重大错误,比如说漏掉一些词语、脱离语境孤立地翻译句子等,但使用新技术后的翻译质量,已经接近普通人类译员水平。


与前面那位日本专家对谷歌新系统英日翻译能力进行的测试相仿,2017年1月,在美国总统特朗普就职时,中国国内的AI新媒体“新智元”对谷歌的新翻译系统作了中英文翻译测试。输入特朗普就职演说的英文,一分钟后,谷歌翻译全文翻译成中文。新智元的评测结论是:通篇来看,谷歌翻译在正确性上已经让人印象非常深刻,基本上达到70%到80%的正确率。如果不是准确性要求非常严格的文本,在可用性上基本可以满足。


微软一直有规模可观的自然语言处理团队,与谷歌不同,团队最初聚焦于基于规则翻译,但现在已经采用深度神经网络统计翻译。微软的机器翻译系统支持微软产品线上的很多产品,如Bing(必应)、Skype等。2014年12月,微软的Skype翻译器推出了预览版,当时只支持英文和西班牙文在通话中翻译,但已经引起轰动;到了2015年4月,已经能支持中文普通话。尽管Skype的通话翻译还在发展之中,目前翻译的准确率也有待继续提高,但已经让人想象不同语言的人可以无障碍自由通话的美好前景。2016年12 月,微软发布了世界上第一个万能翻译器。除了支持语音识别、拍照识别、直接输入等翻译功能外,它甚至可以实现多达 100 人之间实时翻译交谈,是一个翻译神器。


中国在机器翻译上表现也非常出色。


科大讯飞在语音合成、语音识别和语义理解方面一直走在世界前列,2014和2015年两次在国际汉英翻译大赛IWSLT中获得全球第一,2015年口语机器翻译系统获NIST国际评测冠军。在2016国际知识图谱构建大赛(KBP)上,科大讯飞首次参赛就包揽了赛事核心任务的冠亚军,充分展示了讯飞在自然语言理解、知识推理等领域国际顶尖的技术实力。讯飞的多语种实时翻译技术处于全球先进行列,同样有自己的互译神器——晓译多语种翻译机。AI实力雄厚的科大讯飞,能够面对任何竞争。


与谷歌一样搜索起家、拥有大规模语料库的百度,对机器翻译当然不甘落后。2011年7月,百度翻译上线,到目前已经支持28个语种,同时在PC和移动端应用。2015年5月,百度翻译正式上线神经网络机器翻译(NMT)系统,成为全球第一个实用NMT,比谷歌还要早一年多。同年,百度翻译获得了国家科技进步二等奖,成为首个获此殊荣的中国互联网企业。


百度翻译也有自己的特色,独创实物翻译、涂抹翻译、文言文翻译等功能,能随时随地、便捷地满足中文用户的翻译需求,是中国人工作、生活、旅游、学习的好帮手。


2016年11月,李彦宏在乌镇召开的第三届世界互联网大会讲演时乐观预言:未来的若干年,我们很容易想像语言的障碍会完全被打破,现在做同声翻译的这些人,可能将来就没有工作了。


无独有偶,奇点论鼓吹者、美国未来学家雷·库兹韦尔(Ray Kurzweil)在接受《赫芬顿邮报》采访时也预言:到2029年,机译的译文质量将达到人工翻译的水准。


自然语言处理和机器翻译已经取得了辉煌的成就,重建巴别塔,让全世界不同民族说不同语言的人,实现无障碍交流的日子,不太遥远了。


AI传奇专栏回顾:

第六回 | 语音合成,在校生书写讯飞传奇

第五回 | 深度学习登台语音识别

第四回 | 助飞的双翼

第三回 | “深度学习之父”杰夫·欣顿

第二回 | AI的酷暑与寒冬

第一回 | 2016,AI春暖花开


回复 鲜花 鸡蛋

使用道具 举报

 楼主| 发表于 2017-6-26 03:38 AM | 显示全部楼层

学习革命,AI掀起教育史上一场数字海啸 | 总编专栏 

2017-06-25 陈宗周 环球科学ScientificAmerican

本文是《环球科学》总编、社长陈宗周先生撰写的系列专栏“AI传奇”的第八回。在这一回中,陈宗周先生将为我们解读AI为全球教育带来的革命。从学习诊断到MOOC教育,AI正引领我们进入一个终身学习的时代。

 


陈宗周是《环球科学》杂志社社长,《电脑报》创始人。



2011年秋季学期,位于硅谷的美国名校斯坦福大学,做了一件开创历史的大事。他们试探性地将三门计算机课程对全球免费开放。


反响出人预料,三门课程注册学习人数均超过10万人。其中,《人工智能导论》有 190 个国家(地区)的 16万学习者注册。不仅如此,这门课还诞生了一个全球性脸书(Facebook)群,大量在线志愿翻译者迅速将课程翻译成44 种语言。


第二年席卷全球的MOOC风潮,就由这门课掀起。



2012:MOOC海啸袭来


斯坦福大学的《人工智能导论》是一门经典课程,授课教授塞巴斯蒂安·特隆(Sebastian Thrun)与彼得·诺维格(Peter Norvig)都是名师。尤其是特隆,他简直就是硅谷传奇。这位德国出生、高中时代就自己编制魔方程序的天才,与许多著名机器人有关。1997年他开发的世界上第一个机器人导游,出现在波恩的德意志博物馆。而1998年,他的另一台机器人导游“米勒娃”,又在华盛顿的史密森国家历史博物馆迎宾。2002年,他的护理机器人在匹兹堡附近的疗养院里服务。担任斯坦福大学AI实验室主任的他,39岁就当选美国工程院院士。2005年,他主持开发的斯坦利(Stanley)无人驾驶汽车在DARPA(国防部高级研究计划署)挑战赛中独立完成了从莫哈韦沙漠到拉斯维加斯南部长达212公里的行程,成为完成此赛程的第一辆无人车。斯坦利也被送到史密森国家历史博物馆,在“路上的机器人”永久展区的中心位置展出,以纪念它翻开了自动驾驶历史新的一页。他在谷歌公司创立了X实验室,自动驾驶、谷歌眼镜、谷歌街景等创新技术,都源于这神秘的实验室。


塞巴斯蒂安·特隆


尽管个人经历充满了传奇,面对全球16万网络学生,特隆不得不格外重视。他重新规划课程,把学生放在一切的中心。同时,他设计了一系列问题让学生们解答,让他们必须通过解决问题来学习,而不只是听。特隆也告诉斯坦福的学生们,如果不想去听课可以在网上学,结果有超过 3/4 的学生选择了后者。期中考试时,不可思议的事情发生了,斯坦福学生的平均成绩比历届整整高出了一个等级。同样的变化,也出现在期末考试中。更出人意料的是,斯坦福学生不是这门课中表现最好的。课程结束,前400名中没有一位来自斯坦福,其中248名满分者更与斯坦福绝缘。


这件事使特隆震惊,他重新思考从前所了解的教育。几个月后的2012年1月,他辞去斯坦福大学终身教职,在硅谷创立了第一家MOOC教育公司Udacity。2012 年4月,另一位斯坦福大学教授达芙妮· 科勒(Daphne Koller)和她的同事吴恩达共同创办了MOOC公司Coursera。之后一个月,东部同样拥有优质大学教育资源的MIT和哈佛大学联手创办了非盈利性MOOC机构edX。短短四个月内,“三足鼎立”的三大MOOC教育平台在美国崛起。特隆更在《连线》上预言未来50年内,全世界大学数量将会降至仅10所。


吴恩达与他创办的Coursera


2012年,是MOOC元年。斯坦福大学校长约翰·汉纳森(John H ennessy)称为教育史上“一场数字海啸”。


MOOC,中文翻译为慕课,是大规模在线公开课(Massive Open Online Course)的缩写。这个术语其实早在2008年就由加拿大爱德华王子岛大学提出,而2007年孟加拉移民萨尔曼·可汗(Salman Khan)创办的著名网络教育机构——可汗学院(Khan Academy)也对MOOC有很大启发与影响。但真正引起巨变的,还是特隆的那堂《人工智能导论》课。


MOOC与以前的网络公开课有很大的不同,它确实颠覆了传统大学。而且,颠覆的方法很特别,说通俗一点,就是借着大学的名义颠覆大学。


表面上看,MOOC几乎沿袭了传统大学教学管理流程的一切。而骨子里,MOOC却几乎颠覆了传统大学的全部:MOOC的教师也要按进度授课——但授课对象却穿越校园,穿越国度,大规模面向世界任何角落的求知者,完全免费;MOOC的学生也要按时完成作业——但这是在智能化自适应学习系统的帮助下、在地球这座“教室”里与其他学生互助交流下完成;MOOC也要考试,甚至颁发相应证书或文凭——但这些服务,像MOOC的其他教育服务一样,由学习者自主选择。           

MOOC这种全球性大规模的开放、免费、交互式的网络教学,实际上完全颠覆了今天的大学。从MOOC问世后全球知名大学追赶潮流、唯恐落伍的洋洋景观,正可看出MOOC的革命性。有了MOOC,大学将不是从前的大学了。难怪, Coursera的创始人科勒惊呼:“下一个爱因斯坦或乔布斯,也许就隐身在非洲某个偏远的乡村中。”


MOOC的巨大影响,正是由于AI在其中扮演重要角色,分布于世界各地的授课者和大规模学习者的多空间交互、学生作业的讨论完成与评判、检查课程完成情况的各种小测验与期中期末考试等等,这些教学工作如果没有数据挖掘、教育专家系统、人机交互等多种AI手段的帮助,不可能完成。


MOOC也受到不少责难,比如认为课程的完成率和考试通过率都比较低等等,但这些都属于发展中的问题,会在成熟中不断解决。在AI推动下,MOOC仍在大步前进。据在线教育研究网站Online Course Report对MOOC发展情况的研究,2016年,全球MOOC课程总数,比前一年新增2000门。


AI在教育系统的应用,远远不止是在大学,而且远不是现在才开始。



AI评分员


由美国教育测验服务机构(ETS)举办的托福(TOEFL)考试,是全球权威的英语能力测试。对不是以英语为母语者取得英语国家大学的入学资格,是重要的依据。从2010年1月开始,ETS就对托福考试的评分系统就进行了改革,口语和写作两部分都引入电脑评分。由原来的2个评分员评分、取算术平均分作为原始分,改为1个评分员和1个电脑评分员(e-Rater)评分、取算术平均分作为原始分的方式。电脑评分系统在强大数据系统支持下,将输入的考生考试内容和数据库里内容进行比照评判。ETS作为全球最大的水平测试服务机构,能够不断积累大量考试数据,使电脑评分系统的智能化和准确率不断提升。这是AI在教育成绩评定方面的一个典型应用。


中国的普通话水平测试引入AI,则走在了前面。从2007年起,普通话水平测试,就逐步用上了讯飞公司的智能评分系统,到2012年底,全国所有省份全部采用。标准的普通话水平测试,被测试人要对着机器通过四道考题,分别是单音节词、多音节词语、朗读短文和命题说话。目前,前三道题都完全由计算机评分,后一道题由机器和测试员共同评分。重庆市语委办的工作人员评价:机器评分比人更快更准确更公平,而且连续工作没有疲劳感。重庆每年有17万人要通过普通话水平测试,如果不是把大量的工作交给了机器,需要兼职的评测员数千人。


从2009年起,讯飞公司的智能评分技术也逐步用于江苏、北京、上海、广东等十多个省市的中考、高考、会考的英语听力和口语考试中。采用讯飞智能评测技术进行的自动化考试,用 “人机对话”、智能评分的模式,解决了英语听力和口语考试的人工评分中组织困难、成本高昂、评分标准难以统一等问题。2016年起,讯飞公司的智能评分系统,在国家四六级英语考试的口语考试中正式应用。


能不能对所有的笔写试卷和作业进行评分呢?这也是讯飞等AI公司正在探索并取得一定成果的工作。机器对口语评分,涉及到AI技术中的语音识别,有一定的难度。而对笔写试卷和作业进行机器评分,涉及到手写体识别,这也是图像识别中的一个难题。尤其是对手写体汉字的识别,难度很高。讯飞公司等机构很早就开始了手写体汉字识别的研究,批改试卷和作业的阅卷机器人也在开始试用。



AI帮你考上大学


中国还正在进行一项宏大的研究项目:“基于大数据的类人智能关键技术与系统”,由讯飞公司牵头,清华大学、中科院自动化所、北京大学等30多家科研院校和企业共同研究,汇集了一批国内AI领域顶尖专家。科大讯飞承担了类人答题项目,目标是研制出能够参加高考并考取大学的智能机器人。按照计划,2019年机器人将参加高考,达到前20%的水平,能考上大学。


国外同样也有高考机器人的计划。美国华盛顿大学等机构的高考机器人项目,目标是未来通过美国生物考试。东京大学的机器人“萝卜君”,已经进行了六年多的开发,目标是考上东京大学。讯飞研究院前院长胡郁接受采访时说:“整体来讲,我们的进展从速度上比他们快,他们准备的时间比较长,取得的数据积累也不错。他们的目标考上东京大学,东京大学的挑战比一般大学的难度更大一些。我们的高考机器人采取循序渐进的逐步成熟方法,第一步目标先考上大学,然后再考上好的大学,最后才能考上清华、北大,是一个逐步的过程。”同样以研制出能考上清华、北大的高考机器人为目标的成都准星云学科技公司,把这一目标定在2020年。作为先行测试,2017年6月7日,这家公司的AI-maths 机器人“参加了高考”,在22分钟内完成了北京文科数学考试卷,满分是150分的试卷,机器人得分为105分,解答一道题的时间最快不到一秒。机器人参加2017年高考的消息,成为新闻热点。


参加今年高考的AI-MATHS


对考试机器人的研究不是最终目的,而是要进一步认识教育的规律,探索用AI辅助手段,更好解决教与学的问题。


有效学习策略可以个性化。英国老牌的远程教育机构开放大学(Open University)已经使用大数据来管理每个学生的线上行为和表现。美国的教育平台Knewton获取了1千万学生的数据,向他们推荐个性化的学习内容,帮助学生更多关注自己的思考过程,使他们更好学习后面课程的新知识和新技能。


而讯飞公司多年来的探索也是如此。通过科学化客观化的考试,用AI对作业和试卷进行批改评分,可以积累数据,对学生学习行为进行分析。比如,通过全学科自动阅卷扫描,把一位学生以前做错的题目,日复一日细致梳理,会系统发现学生考试和做作业哪些地方错了?为什么会出错?这就是学习诊断。随着数据的积累,学习诊断的能力就会越来越强,会告诉学生错在哪儿,如何通过学习改进,二元一次方程不会做,是不是一元一次方程没学好?然后,给学生个性化的学习包,让学生做作业时不要重复已经会的内容,而专注于掌握不会的内容,这样学习事半功倍。AI给出的个性化学习包,相当于给每个学生都提供一位学习秘书。  


当学生查询自己考试成绩的时候,看到的不仅是简单的分数,还会看到和成绩单一起的 “学习诊断报告”。通过这份报告,不但可以了解到学科知识点和能力点的掌握情况,还能看到对自己的优势、劣势的学科分析,从而找到提升成绩的方法,这是多么生动的学习场景。


讯飞公司在安徽合肥一中做了五个班的AI辅助学习试验。根据每次小测试、月考和期中期末考试试卷分析,提供个性化的学习包,有两个班,一个从第八名变成第二名,一个是第十四名变成第一名。由于非常有效,合肥一中开始大规模应用这项技术。


同样的,AI也对老师配备教学秘书,大大提高老师的教学效率和效果。机器人帮助老师准备课件批改作业,大数据支持的强大分析能力帮助他了解每一个学生的学习情况,制定有针对性的教学计划,真正做到因材施教。教育云计算平台支撑教和学所有环节的有序高效进行。


随着AI更深入的进入教育系统,新的教育场景会出现:聊天机器人对话系统解答学生问题、机器人助教担任辅导老师、VR(虚拟现实)、AR(增强现实)技术实现课堂内外的情景融合、课程游戏化提升学习兴趣等等。从幼儿园到大学,AI带来的教育革命浪潮正在兴起。



AI,让所有人终身学习


AI技术的广泛应用,让教育从来没有像今天这样普及。近年来MOOC发展的一个重要趋势是开始超越校园,在企业和全社会的职业培训与技能教育中得到广泛应用。MOOC平台如Coursera开始逐渐面向企业,采用了以就业为重点的新业务模式。领英(LinkedIn)是全球著名的职场人脉网站,于2015年收购了在线培训业务Lynda,提供职业培训课程,微软公司等也购买了他们的教育服务。


而国内的企慕课堂、燕园财税、中石化远程培训中心等培训机构,也通过MOOC方式创造性地建立新型职业培训平台,把岗位系列课程设计、线上培训、专业认证、同业交流、人才大数据、猎头等等功能融合在一起,支持多终端使用,随时随地满足学习需求,用AI技术开拓出职业培训的新空间。AI支撑的互联网巨头教育平台和各种知识分享平台,也不断为全社会的教育普及和知识分享提供越来越丰富的服务。未来的大学没有围墙,未来的教育不会止于大学。


AI也深深的影响到每一个人,它使教育前所未有地普及,使学习前所未有地高效,同时,也使终身学习前所未有地重要。


2016年6月,英国《经济学人》封面文章专题报道了AI进步对社会可能产生的巨大影响,教育是受影响的五个方面之一。2017年伊始,这一知名媒体再度刊登重磅文章《特别报告:终身学习》。文章指出:和工业革命同时带来了教育革命一样,AI和自动化时代需要另一场教育革命。这场革命就是终身学习。


文章分析道,今天终身学习的受益者主要是成功人士,但未来所有的人都应该边谋生边学习。传统教育模式是人生初期集中学习,之后公司培训加以补充。这一模式正在瓦解,原因之一是需要新的、不断变化的技能,终身学习变得具有急迫性。


许多人相信,有大学毕业证书的人将自然获得更高薪工作。今天的现实是,决定去上大学依然很有道理,但是大学学历和工资之间的简单关系被改变了。2013 年三位加拿大经济学家的研究表明,现在美国大学毕业的求职者不得不从事对认知技能要求较少的工作,替代教育程度不高的工作者。这项分析证实了技术会颠覆就业的这一观点,说明不同层次的工作者都会陷入麻烦。牛津大学两位学者2013 年也通过研究预测,47%的美国现有工作容易受到自动化技术影响,这一著名结论被今天很多研究AI政策的人们引用。


获得新技能变得至关重要。例如,编程技能现在的需求量远远超过其他技术技能。在美国,薪酬前四分之一高的职业中,有49%的职位要求有编程技能。过去五年中,对数据分析师的需求增长了372%,对数据可视化技能的需求激增了2574%。现在,连要求营销专业人员具有开发算法的能力也被认为是合理的。


人们也越来越接受持续学习的观点。根据皮尤调查机构的调查,54%的美国工作者认为发展新技能至关重要;这个比例在 30 岁以下的人群中则达到 61%。当技术正在发生难以预测的变化、工作变得富有交叉性时,人类就越需要不断学习去掌握新技能。终身学习,将是所有人的追求。


AI的影响是全球性的,发达国家美国正在发生的事情,同样会在发展中国家的中国发生。终身学习时代已经来临,我们准备好了吗?


AI传奇专栏回顾:

第七回 | 机器翻译为人类重建巴别塔

第六回 | 语音合成,在校生书写讯飞传奇

第五回 | 深度学习登台语音识别

第四回 | 助飞的双翼

第三回 | “深度学习之父”杰夫·欣顿

第二回 | AI的酷暑与寒冬

第一回 | 2016,AI春暖花开


回复 鲜花 鸡蛋

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|www.hutong9.net

GMT-5, 2024-5-7 12:38 PM , Processed in 0.147934 second(s), 15 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表