盘古3.0：中国大模型突围的一个典型样本

源济 · 发表于 2023-7-8 10:56 PM

盘古3.0：中国大模型突围的一个典型样本

Original 陈彬远川研究所 2023-07-07 04:04

2022年底，谷歌被危机感所淹没了。彼时，以ChatGPT为代表的大模型技术引发了一场科技海啸；而几乎大多数人、甚至可能连谷歌自己都认为，首先被淹没的“旧时代残党”，会是传统的搜索引擎。因此，谷歌内部拉响了红色警报，预示着存在当前、紧急、直接的危机。

然而，这一切似乎只是虚惊一场。

2023年2月，微软推出新一代搜索引擎New Bing，融入了ChatGPT的AI聊天功能。上线首月，Bing的网页访问量增长了15.8%，但市场份额只增加了0.01%；随后，Bing便彻底失速。

截止至5月，Bing的全球市场份额为6.81%，甚至低于改版之前[2]。

无事发生

搜索市场哑火是ChatGPT现状的一个切面。4月，摩根士丹利做过一次抽样调查，数据显示仅有19%的人用过ChatGPT，其中一半已“退坑”，而每周使用的活跃用户仅有8%左右[3]。

3月的一场发布会上，黄仁勋曾将ChatGPT形容成“iPhone时刻”。如今看来，这个比喻其实相当贴切：

一方面，初代iPhone一些设计确实影响了日后的智能手机，揭开了移动互联网时代的序章；但相对应，初代iPhone产品本身又有很强的局限性，它只有15个应用程序、不能拍视频、不支持彩信等等。和当时的诺基亚相比，初代iPhone更像个偏极客风格的玩具。真正颠覆手机市场的，是后续的iPhone 3G等产品。

眼下，大模型同样没能完全摆脱“玩具”的属性，距离兑现潜力还有不少路要走。但幸运的是，大模型可以摸着石头过河。

CNN的启示

上一个从“玩具”活成“工具”的AI，叫卷积神经网络（CNN）。这个AI算法虽名字拗口，但应用场景却相当广泛且接地气，包括安防和人脸识别等场景。每一张交通罚单，都有它三分功劳。

卷积神经网络成为工具的起点，是那个众所周知的时刻：2012年，“AI教父”辛顿用卷积神经网络AlexNet，将图像识别率达到了一个前所未有的高度，从此一鸣惊人。但不为人知的是，从“玩具”到“工具”，中间其实时隔了32年。

最终成功熬出头，是因为卷积神经网络的开发者做对了两件事。

最早的卷积神经网络可追溯至1980年。当时，日本科学家福岛邦彦发明了“新认知机”，它是一个结构巧妙的多层神经网络，成功识别出了手写的文字，堪称里程碑式突破。然而，“多层神经网络”的理念在当时有些过于超前了，一些关键技术缺陷无法解决，新认知机最终没能在历史上留下太多笔墨。

直到1989年，在贝尔实验室工作的计算机科学家杨立昆，以新认知机原有设计为基础，加入了全新的反向传播算法，这才形成了今天的卷积神经网络。

杨立昆做对了第一件事情：通过反向传播算法解决了核心技术缺陷。至此，卷积神经网络第一次具备成为工具的潜力。

90年代，杨立昆利用卷积神经网络开发了一个识别银行支票的系统，一度拿下了美国10%的市场。不过，彼时的卷积神经网络并没法展现全部潜力，与市场上其他技术拉不开差距，且无法识别文字、数字以外更复杂的图像。

为了解决这一问题，杨立昆曾设计了一款酷似日后GPU的特殊芯片来训练AI。但随着他后续被贝尔实验室开除，相关芯片研究也无疾而终，卷积神经网络再一次被扫进了历史的垃圾箱内——直到辛顿把它翻出来。

辛顿做对了第二件事：以一种可工程化的方式，挖掘出了卷积神经网络的潜力。

改变世界的AlexNet

所谓工程化，指的是产品可落地、可复用、可迭代。相比于杨立昆80年的研究，辛顿的AlexNet其实并没有太多技术上的大革新，而是使用了现成的GPU来训练卷积神经网络。当时，GPU主要用于游戏图形处理，在商店随时可以买到，卷积神经网络的落地不再是一件难事。

技术和工程改造，是卷积神经网络迭代背后的两大关键词。

如今，大模型再度站上相同的历史节点，全球的企业和科学家已然跃跃欲试，一场改造大模型的科技竞赛正式打响。

瓶颈下的突破

6月，法国举办了一场关于AI威胁的公开辩论。杨立昆作为“AI末日说”的坚定反对者，现场抛下了一句惊呆所有人的观点：“（大模型）缺少一些非常重要的东西，它的智力不仅达不到人类水平，甚至不如狗。[6]”

杨立昆认为，GPT等大模型存在一个关键缺陷：它们只学习了文本或者其他单一数据，对现实世界的了解十分浅显。人类的知识和文明不全是从书本上获得的，“书呆子”AI未必有多聪明。

杨立昆

在计算机科学家的圈子里，上述观点得到了不少认同。公认的“AI教科书”《人工智能：现代方法》作者罗素教授，在接受国内媒体采访时曾做过这么一个比方：

“如果拿着我一张写满智慧的纸朗读，或许会让听众豁然开朗，但没人会认为纸张是聪明的，因为智慧属于作者。如今的GPT-4，我认为介于纸张和作者之间。它在很多场景下表现得优异，但如果给它更困难的问题，大模型总是会输出错误的答案。这种情况下，它似乎更像一张纸，而不像一个人类。[7]”

翻译一下就是，有一些智能，但不够多。

因此，许多研究员试图像当年的杨立昆那样，从技术层面来改造大模型：谷歌DeepMind试图融入AlphaGo的技术，让大模型更加智能；而杨立昆自己则提出了“世界模型”的理念，打算让AI学习现实世界的运转逻辑。

不过，技术攻坚并非是大模型落地的唯一解。

2023年，国内的8个矿井已经抢先用上了大模型工具——盘古矿山大模型。该工具由华为云研发，仅靠一个大模型平台，就覆盖了包括煤矿的采、掘、机、运、通等业务流程下的1000多个细分场景。仅从试点的效果测算，仅盘古矿山大模型的智能洗选煤功能，就可以让精煤回收率提升0.1%到0.2%；以1000万吨焦煤选煤厂为例，每提升0.1%精煤产率可增加1000万元/年利润。

除生产力的提升之外，盘古矿山大模型还有望减少安全事故的发生：大模型的监测系统可以一天24小时不间断巡检，及时发现矿井中的异常状况。

过去，煤矿存在着生产场景复杂、人员素质参差不齐等问题，很难用AI技术来改造。随着盘古矿山大模型取得突破，AI才有机会真正成为一项生产力工具。

上述所有突破，其实都发生在大模型军备竞赛的另一个“隐藏战场”——工程竞赛。

改造大模型

矿山大模型能够融入煤矿生产，源自其对大模型技术的工程改造：华为云针对具体的工业场景，设计了一套由L0-L1-L2三个层级构成的大模型平台。L0层是通用大模型，囊括了类似GPT-4的大语言模型，以及其他多模态大模型；L1是针对工业场景的大模型，而L2则是面向更加细分场景的推理模型。

这一设计的目的，是为了解决三个具体的痛点：

其一，工业场景下的数据并不如互联网那么丰富。大模型技术固然先进，但需要海量数据作为支撑；但工业数据的体量，有时未必能支撑起一个大模型。

因此，华为云而是利用了L0层的通用大模型，让它额外去学习一些行业数据，打造一个行业大模型。因为通用大模型已经具备较强的通用能力，相当于一个刚刚毕业的大学生；只需要再教授一些专业知识，大学生也能很快上手工作。

其二，通用大模型面对一些具体难题表现并不好。对此，盘古大模型通过增加L1、L2两个层级来充当大模型的“手脚”，以解决工业场景下的具体工作。而L0的通用大模型，则充当了“大脑”的功能。它能够自动分解任务，并调用“手脚”分布处理复杂环境下的作业，实现了长短互补。

其三，是新产生的数据难以再利用的难题。对此，华为云给盘古大模型设计了一个完整的反馈链条，通过记录各行业的处理日志等数据，反哺到通用大模型训练数据语料中，进而不断提升其智能。

在这三层架构的基础上，华为云还设计了L0.5层。简单来说，L0.5层汇总了L0层通用大模型的各项能力，比如文字问答、写代码、文生图、图像分割等等，相当于一个“AI技能商店”。由于不同行业场景下，对大模型需求截然不同；有了L0.5层之后，企业便可以根据自身业务需求挑选对应的能力，进而开发出更适配的大模型工具。

工程端发力的同时，华为云也没有放弃技术层面的研究，毕竟好的算法能让工程落地效果事半功倍。华为的大模型研究始于2019年，并为此招募了一支平均年龄不到30岁、50%为博士的团队。围绕Transformer架构，华为云改造出了许多独特的算法。

例如在2022年底，华为云在一篇论文中发表了全新的盘古气象大模型——这是世界上第一个超越传统天气预测方式的AI。论文中提到，在预测热带风暴的任务中，盘古气象大模型的预测精度显著超过了欧洲气象中心的高精度预报。

7月6日，权威科学期刊《Nature》的正刊收录了盘古气象大模型的论文。审稿人评价称，“盘古气象大模型让人们重新审视了气象预报模型的未来。”

毫无疑问，华为云正在成为大模型竞赛中一个不可忽视的玩家。

工程的战争

过去这半年，随着越来越多的退休企业家们先后投大模型技术，国内的科技媒体们给这股热潮取了个新名字——“百模大战”。这个名字改编自曾经的“百团大战”：彼时，数十家互联网初创公司正围绕着团购市场打的不可开交。如今，一众AI创业公司正埋头研发大模型算法，替日后的短兵相接做好准备。

然而，AI不是互联网，模型算法也不能简单和互联网产品划等号。许多人只将注意力放在了一篇篇论文上，却忽视了大模型竞赛比拼的，实际还有工程能力。

AI由算法、数据以及算力三大要素构成，后两个因素实际对企业的工程能力有很高要求。90年代，杨立昆正是因为只有算法没有算力，因此始终没能迈出最关键的一步。

如今，数据和算力同样对大模型能否落地起到了关键性作用：

数据收集、筛选是第一道坎。虽然互联网上存在着近乎无限的内容，但其中也包含着大量低质、无效的内容。如果教科书粗制滥造，AI不免越学越“笨”。

如果具体到一些现实场景，数据收集往往会更加困难。前文曾提到，工业领域的数据本就不如互联网那么丰富。且对企业而言，工业数据等同于公司机密，显然不可能轻易对外公开，进一步拉高了数据的门槛。

至于算力，随着英伟达的王牌产品H100/A100对中国禁售，国内的企业不得不寻找下位替代。对此，英伟达很贴心地推出了特供版的H800。相比于H100，H800保留了其大多数的配置，但在传输速率上一刀砍了1/3——这意味着用H800训练大模型需要花费更多时间，注定比国外同行慢一步。

正因为如此，华为从2018年涉足AI领域之初，便提出了全栈自主，全场景布局的AI战略。

过去数年，华为云盘古大模型学习了上百TB的百科知识、文学作品、程序代码等文本数据，以及数10亿张带文本标签的互联网图像。除了学习大量通用知识以外，盘古大模型还学习了10多个行业的公开数据，涵盖金融、政务、气象、医疗、健康、互联网、教育、汽车、零售等，每个行业数据量超过500亿 tokens（一段文本中的最小单位，是构建神经网络模型的基本单位之一）。

在这基础上，华为云还向平台上的开发者，推出了盘古大模型工程化平台，提供了数据处理、模型训练和应用开发三大功能，以降低大模型开发难度。过去，开发一个GPT-3规模的行业大模型，通常需要5个月；随着工程化平台的推出，开发周期能缩短至原来的1/5。

而在算力层面，华为云过去训练盘古大模型时，曾使用了上千个昇腾芯片持续训练了数月；如今，华为云发布了昇腾AI云服务，支持亿参数规模的大模型训练一个月以上不中断。

昇腾AI云服务的算力能实现稳定输出，离不开其华为云数据中心在冷却系统上的创新。数据中心是个典型的能耗大户，对散热高度刚需，并催生了一个百亿规模的市场。华为云数据中心的全液冷设计，能够做到分类分级按需冷却，降低能耗。

华为云还通过昇腾AI云服务帮助更多企业解决算力难题——今天，华为云宣布单集群2000P Flops算力的昇腾AI云服务在华为云的乌兰察布和贵安AI算力中心同时上线。

如今，华为已是国内少有实现从AI芯片、AI框架、全流程支持MLOps的AI平台ModelArts，再到基础大模型全栈自主的企业。

当人们争论谁才是中国版OpenAI时候，华为云已经开始以一种低调、务实的方式改变世界了。

尾声

人们在记述科技史的时候，或多或少都会夹杂一些个人英雄主义的色彩。

大模型引起轰动之后，OpenAI的创始人阿尔特曼便成为了全球瞩目的焦点。过去几个月，阿尔特曼沿着欧亚大陆四处奔波，几乎将各国的领导人见了个遍，也因此收获了“AI政治家”的戏称。

毫无疑问，一项新技术的开拓者固然意义重大。例如改造蒸汽机的瓦特，将人类社会推向了工业时代，并催生了一系列社会变革；而OpenAI掀起的大模型革命，大概率将再一次重塑社会。但让普通人生活发生翻天覆地变化的，其实是那些令新技术走进商场的人。直到乔治·斯蒂芬森发明的蒸汽火车开始在铁轨上奔驰，工业的时代才真正意义上到来了。

那些真正重塑普通人生活的企业和个人，同样值得喝彩。

参考资料

[1] These 2 charts show Microsoft Bing’s search market share problem，Search Engine Land

[2] statcounter

[3] ChatGpt and Google Bard, Morgan Stanley survey of AI users around the world

[4] GPT的背后，从命运多舛到颠覆世界，人工神经网络的跌宕80年，知识分子

[5] 深度学习革命，凯德·梅茨

[6] Artificial intelligence is not yet as smart as a dog, Meta A.I. chief says，CNBC

[7] 对话「AI标准教科书」作者罗素：GPT-4技术路径有巨大潜在风险，AI威胁超核战争，腾讯科技

[8] Google DeepMind’s CEO Says Its Next Algorithm Will Eclipse ChatGPT，Wired

作者：陈彬

编辑：李墨天

视觉设计：疏睿

责任编辑：李墨天

		自动登录	找回密码
密码			注册