找回密码
 注册
搜索
查看: 331|回复: 0

盘古3.0:中国大模型突围的一个典型样本

[复制链接]
发表于 2023-7-8 10:56 PM | 显示全部楼层 |阅读模式


盘古3.0:中国大模型突围的一个典型样本

 陈彬 远川研究所 2023-07-07 04:04 Posted on 上海

5.png


2022年底,谷歌被危机感所淹没了。彼时,以ChatGPT为代表的大模型技术引发了一场科技海啸;而几乎大多数人、甚至可能连谷歌自己都认为,首先被淹没的“旧时代残党”,会是传统的搜索引擎。因此,谷歌内部拉响了红色警报,预示着存在当前、紧急、直接的危机。


然而,这一切似乎只是虚惊一场。


2023年2月,微软推出新一代搜索引擎New Bing,融入了ChatGPT的AI聊天功能。上线首月,Bing的网页访问量增长了15.8%,但市场份额只增加了0.01%;随后,Bing便彻底失速。


截止至5月,Bing的全球市场份额为6.81%,甚至低于改版之前[2]。


6.png
无事发生


搜索市场哑火是ChatGPT现状的一个切面。4月,摩根士丹利做过一次抽样调查,数据显示仅有19%的人用过ChatGPT,其中一半已“退坑”,而每周使用的活跃用户仅有8%左右[3]。


3月的一场发布会上,黄仁勋曾将ChatGPT形容成“iPhone时刻”。如今看来,这个比喻其实相当贴切:


一方面,初代iPhone一些设计确实影响了日后的智能手机,揭开了移动互联网时代的序章;但相对应,初代iPhone产品本身又有很强的局限性,它只有15个应用程序、不能拍视频、不支持彩信等等。和当时的诺基亚相比,初代iPhone更像个偏极客风格的玩具。真正颠覆手机市场的,是后续的iPhone 3G等产品。


眼下,大模型同样没能完全摆脱“玩具”的属性,距离兑现潜力还有不少路要走。但幸运的是,大模型可以摸着石头过河。



CNN的启示



上一个从“玩具”活成“工具”的AI,叫卷积神经网络(CNN)。这个AI算法虽名字拗口,但应用场景却相当广泛且接地气,包括安防和人脸识别等场景。每一张交通罚单,都有它三分功劳。


卷积神经网络成为工具的起点,是那个众所周知的时刻:2012年,“AI教父”辛顿用卷积神经网络AlexNet,将图像识别率达到了一个前所未有的高度,从此一鸣惊人。但不为人知的是,从“玩具”到“工具”,中间其实时隔了32年。


最终成功熬出头,是因为卷积神经网络的开发者做对了两件事。


最早的卷积神经网络可追溯至1980年。当时,日本科学家福岛邦彦发明了“新认知机”,它是一个结构巧妙的多层神经网络,成功识别出了手写的文字,堪称里程碑式突破。然而,“多层神经网络”的理念在当时有些过于超前了,一些关键技术缺陷无法解决,新认知机最终没能在历史上留下太多笔墨。


直到1989年,在贝尔实验室工作的计算机科学家杨立昆,以新认知机原有设计为基础,加入了全新的反向传播算法,这才形成了今天的卷积神经网络。


杨立昆做对了第一件事情:通过反向传播算法解决了核心技术缺陷。至此,卷积神经网络第一次具备成为工具的潜力。


90年代,杨立昆利用卷积神经网络开发了一个识别银行支票的系统,一度拿下了美国10%的市场。不过,彼时的卷积神经网络并没法展现全部潜力,与市场上其他技术拉不开差距,且无法识别文字、数字以外更复杂的图像。


为了解决这一问题,杨立昆曾设计了一款酷似日后GPU的特殊芯片来训练AI。但随着他后续被贝尔实验室开除,相关芯片研究也无疾而终,卷积神经网络再一次被扫进了历史的垃圾箱内——直到辛顿把它翻出来。


辛顿做对了第二件事:以一种可工程化的方式,挖掘出了卷积神经网络的潜力。


7.jpeg
改变世界的AlexNet


所谓工程化,指的是产品可落地、可复用、可迭代。相比于杨立昆80年的研究,辛顿的AlexNet其实并没有太多技术上的大革新,而是使用了现成的GPU来训练卷积神经网络。当时,GPU主要用于游戏图形处理,在商店随时可以买到,卷积神经网络的落地不再是一件难事。


技术和工程改造,是卷积神经网络迭代背后的两大关键词。


如今,大模型再度站上相同的历史节点,全球的企业和科学家已然跃跃欲试,一场改造大模型的科技竞赛正式打响。



瓶颈下的突破



6月,法国举办了一场关于AI威胁的公开辩论。杨立昆作为“AI末日说”的坚定反对者,现场抛下了一句惊呆所有人的观点:“(大模型)缺少一些非常重要的东西,它的智力不仅达不到人类水平,甚至不如狗。[6]”


杨立昆认为,GPT等大模型存在一个关键缺陷:它们只学习了文本或者其他单一数据,对现实世界的了解十分浅显。人类的知识和文明不全是从书本上获得的,“书呆子”AI未必有多聪明。


8.png
杨立昆


在计算机科学家的圈子里,上述观点得到了不少认同。公认的“AI教科书”《人工智能:现代方法》作者罗素教授,在接受国内媒体采访时曾做过这么一个比方:


“如果拿着我一张写满智慧的纸朗读,或许会让听众豁然开朗,但没人会认为纸张是聪明的,因为智慧属于作者。如今的GPT-4,我认为介于纸张和作者之间。它在很多场景下表现得优异,但如果给它更困难的问题,大模型总是会输出错误的答案。这种情况下,它似乎更像一张纸,而不像一个人类。[7]”


翻译一下就是,有一些智能,但不够多。


因此,许多研究员试图像当年的杨立昆那样,从技术层面来改造大模型:谷歌DeepMind试图融入AlphaGo的技术,让大模型更加智能;而杨立昆自己则提出了“世界模型”的理念,打算让AI学习现实世界的运转逻辑。


不过,技术攻坚并非是大模型落地的唯一解。


2023年,国内的8个矿井已经抢先用上了大模型工具——盘古矿山大模型。该工具由华为云研发,仅靠一个大模型平台,就覆盖了包括煤矿的采、掘、机、运、通等业务流程下的1000多个细分场景。仅从试点的效果测算,仅盘古矿山大模型的智能洗选煤功能,就可以让精煤回收率提升0.1%到0.2%;以1000万吨焦煤选煤厂为例,每提升0.1%精煤产率可增加1000万元/年利润。


除生产力的提升之外,盘古矿山大模型还有望减少安全事故的发生:大模型的监测系统可以一天24小时不间断巡检,及时发现矿井中的异常状况。

过去,煤矿存在着生产场景复杂、人员素质参差不齐等问题,很难用AI技术来改造。随着盘古矿山大模型取得突破,AI才有机会真正成为一项生产力工具。

9.jpeg

上述所有突破,其实都发生在大模型军备竞赛的另一个“隐藏战场”——工程竞赛。



改造大模型



矿山大模型能够融入煤矿生产,源自其对大模型技术的工程改造:华为云针对具体的工业场景,设计了一套由L0-L1-L2三个层级构成的大模型平台。L0层是通用大模型,囊括了类似GPT-4的大语言模型,以及其他多模态大模型;L1是针对工业场景的大模型,而L2则是面向更加细分场景的推理模型。


10.png


这一设计的目的,是为了解决三个具体的痛点:


其一,工业场景下的数据并不如互联网那么丰富。大模型技术固然先进,但需要海量数据作为支撑;但工业数据的体量,有时未必能支撑起一个大模型。


因此,华为云而是利用了L0层的通用大模型,让它额外去学习一些行业数据,打造一个行业大模型。因为通用大模型已经具备较强的通用能力,相当于一个刚刚毕业的大学生;只需要再教授一些专业知识,大学生也能很快上手工作。


其二,通用大模型面对一些具体难题表现并不好。对此,盘古大模型通过增加L1、L2两个层级来充当大模型的“手脚”,以解决工业场景下的具体工作。而L0的通用大模型,则充当了“大脑”的功能。它能够自动分解任务,并调用“手脚”分布处理复杂环境下的作业,实现了长短互补。


其三,是新产生的数据难以再利用的难题。对此,华为云给盘古大模型设计了一个完整的反馈链条,通过记录各行业的处理日志等数据,反哺到通用大模型训练数据语料中,进而不断提升其智能。


11.jpeg


在这三层架构的基础上,华为云还设计了L0.5层。简单来说,L0.5层汇总了L0层通用大模型的各项能力,比如文字问答、写代码、文生图、图像分割等等,相当于一个“AI技能商店”。由于不同行业场景下,对大模型需求截然不同;有了L0.5层之后,企业便可以根据自身业务需求挑选对应的能力,进而开发出更适配的大模型工具。


工程端发力的同时,华为云也没有放弃技术层面的研究,毕竟好的算法能让工程落地效果事半功倍。华为的大模型研究始于2019年,并为此招募了一支平均年龄不到30岁、50%为博士的团队。围绕Transformer架构,华为云改造出了许多独特的算法。


例如在2022年底,华为云在一篇论文中发表了全新的盘古气象大模型——这是世界上第一个超越传统天气预测方式的AI。论文中提到,在预测热带风暴的任务中,盘古气象大模型的预测精度显著超过了欧洲气象中心的高精度预报。


12.jpeg


7月6日,权威科学期刊《Nature》的正刊收录了盘古气象大模型的论文。审稿人评价称,“盘古气象大模型让人们重新审视了气象预报模型的未来。”


毫无疑问,华为云正在成为大模型竞赛中一个不可忽视的玩家。



工程的战争



过去这半年,随着越来越多的退休企业家们先后投大模型技术,国内的科技媒体们给这股热潮取了个新名字——“百模大战”。这个名字改编自曾经的“百团大战”:彼时,数十家互联网初创公司正围绕着团购市场打的不可开交。如今,一众AI创业公司正埋头研发大模型算法,替日后的短兵相接做好准备。


然而,AI不是互联网,模型算法也不能简单和互联网产品划等号。许多人只将注意力放在了一篇篇论文上,却忽视了大模型竞赛比拼的,实际还有工程能力。


AI由算法、数据以及算力三大要素构成,后两个因素实际对企业的工程能力有很高要求。90年代,杨立昆正是因为只有算法没有算力,因此始终没能迈出最关键的一步。


如今,数据和算力同样对大模型能否落地起到了关键性作用:


数据收集、筛选是第一道坎。虽然互联网上存在着近乎无限的内容,但其中也包含着大量低质、无效的内容。如果教科书粗制滥造,AI不免越学越“笨”。


如果具体到一些现实场景,数据收集往往会更加困难。前文曾提到,工业领域的数据本就不如互联网那么丰富。且对企业而言,工业数据等同于公司机密,显然不可能轻易对外公开,进一步拉高了数据的门槛。


至于算力,随着英伟达的王牌产品H100/A100对中国禁售,国内的企业不得不寻找下位替代。对此,英伟达很贴心地推出了特供版的H800。相比于H100,H800保留了其大多数的配置,但在传输速率上一刀砍了1/3——这意味着用H800训练大模型需要花费更多时间,注定比国外同行慢一步。


正因为如此,华为从2018年涉足AI领域之初,便提出了全栈自主,全场景布局的AI战略。


过去数年,华为云盘古大模型学习了上百TB的百科知识、文学作品、程序代码等文本数据,以及数10亿张带文本标签的互联网图像。除了学习大量通用知识以外,盘古大模型还学习了10多个行业的公开数据,涵盖金融、政务、气象、医疗、健康、互联网、教育、汽车、零售等,每个行业数据量超过500亿 tokens(一段文本中的最小单位,是构建神经网络模型的基本单位之一)。


在这基础上,华为云还向平台上的开发者,推出了盘古大模型工程化平台,提供了数据处理、模型训练和应用开发三大功能,以降低大模型开发难度。过去,开发一个GPT-3规模的行业大模型,通常需要5个月;随着工程化平台的推出,开发周期能缩短至原来的1/5。


而在算力层面,华为云过去训练盘古大模型时,曾使用了上千个昇腾芯片持续训练了数月;如今,华为云发布了昇腾AI云服务,支持亿参数规模的大模型训练一个月以上不中断。


昇腾AI云服务的算力能实现稳定输出,离不开其华为云数据中心在冷却系统上的创新。数据中心是个典型的能耗大户,对散热高度刚需,并催生了一个百亿规模的市场。华为云数据中心的全液冷设计,能够做到分类分级按需冷却,降低能耗。


华为云还通过昇腾AI云服务帮助更多企业解决算力难题——今天,华为云宣布单集群2000P Flops算力的昇腾AI云服务在华为云的乌兰察布和贵安AI算力中心同时上线。


如今,华为已是国内少有实现从AI芯片、AI框架、全流程支持MLOps的AI平台ModelArts,再到基础大模型全栈自主的企业。


当人们争论谁才是中国版OpenAI时候,华为云已经开始以一种低调、务实的方式改变世界了。



尾声



人们在记述科技史的时候,或多或少都会夹杂一些个人英雄主义的色彩。


大模型引起轰动之后,OpenAI的创始人阿尔特曼便成为了全球瞩目的焦点。过去几个月,阿尔特曼沿着欧亚大陆四处奔波,几乎将各国的领导人见了个遍,也因此收获了“AI政治家”的戏称。


毫无疑问,一项新技术的开拓者固然意义重大。例如改造蒸汽机的瓦特,将人类社会推向了工业时代,并催生了一系列社会变革;而OpenAI掀起的大模型革命,大概率将再一次重塑社会。但让普通人生活发生翻天覆地变化的,其实是那些令新技术走进商场的人。直到乔治·斯蒂芬森发明的蒸汽火车开始在铁轨上奔驰,工业的时代才真正意义上到来了。


那些真正重塑普通人生活的企业和个人,同样值得喝彩。


13.png

参考资料

[1] These 2 charts show Microsoft Bing’s search market share problem,Search Engine Land
[2] statcounter
[3] ChatGpt and Google Bard, Morgan Stanley survey of AI users around the world
[4] GPT的背后,从命运多舛到颠覆世界,人工神经网络的跌宕80年,知识分子
[5] 深度学习革命,凯德·梅茨
[6] Artificial intelligence is not yet as smart as a dog, Meta A.I. chief says,CNBC
[7] 对话「AI标准教科书」作者罗素:GPT-4技术路径有巨大潜在风险,AI威胁超核战争,腾讯科技
[8] Google DeepMind’s CEO Says Its Next Algorithm Will Eclipse ChatGPT,Wired

作者:陈彬
编辑:李墨天
视觉设计:疏睿
责任编辑:李墨天

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|www.hutong9.net

GMT-5, 2024-12-23 06:12 PM , Processed in 0.035533 second(s), 17 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表