找回密码
 注册
搜索
查看: 30|回复: 0

“按需思考”的GPT-5引发争议,但这可能是AI的未来

[复制链接]
发表于 2025-8-17 07:48 PM | 显示全部楼层 |阅读模式


“按需思考”的GPT-5引发争议,但这可能是AI的未来

Screenshot 2025-08-17 at 7.46.37 PM.png
3.jpg

图片来源:Chris Jung/NurPhoto via Getty Images


OpenAI上周发布的GPT-5本应是一场胜利,证明该公司仍是AI领域无可争议的领导者,然而结果却事与愿违。上周末,用户的强烈反对使此次发布不仅演变成公关危机,更升级为产品与信任危机。用户痛惜失去他们最喜欢的、可兼任心理医生、朋友和伴侣的模型,开发者则抱怨模型的性能下降。行业评论家盖瑞·马库斯照例批评GPT-5“姗姗来迟、过度炒作、索然无味”。


许多人指出问题的根源是显而易见的:全新的实时模型“路由器”会为每项任务自动调度GPT-5的某个子版本。许多用户原以为GPT-5是从零训练的单体模型;实际上,它却是多个模型的组合网络,有些模型性能较弱、成本更低,有些模型能力更强但成本更高。专家表示,随着大语言模型的发展且日益消耗资源,这种架构可能代表了AI的未来方向。但在GPT-5的首秀中,OpenAI暴露出该架构存在的一些固有挑战,也深刻认识到AI时代用户期望的演变趋势。


尽管模型路由技术有众多优势,但广大GPT-5用户仍对其剥夺控制权感到愤怒。有人甚至质疑OpenAI可能试图故意蒙蔽用户。 


为平息风波,OpenAI迅速为专业用户重新启用早期主力模型GPT-4o,同时宣布修复路由故障、提高使用限额,并承诺持续更新以重建用户信任与系统稳定性。


对于这种情况,AI销售平台FirstQuadrant联合创始人阿南德·乔杜里直言不讳地评价道:“当路由精准时,它像魔法一样神奇,但当它失灵时,却如同系统崩溃一般。”



模型路由技术的未来前景与不一致性


伊利诺伊大学厄巴纳-香槟分校(University of Illinois Urbana-Champaign)计算机科学助理教授游家轩(音译)向《财富》透露,其实验室深入研究了模型路由技术的未来前景与不一致性。他表示,就GPT-5而言,他相信(虽并未证实)模型路由器有时可能将同一查询的不同部分分发至多个模型:更廉价快速的模型给出一种答案,而响应速度较慢、专注于推理的模型产生另一结果,当系统拼接不同模型的回应时会出现细微的矛盾之处。


他解释道,模型路由的构想虽然直观,“但真正让它发挥作用却并不容易”。他补充道,完善路由系统的难度堪比打造亚马逊(Amazon)级别的推荐系统,需要耗费数年,并且与众多领域专家协作。他解释道:“构建GPT-5模型投入的资源本应呈指数级增长。即便路由器选择小型模型,也不该产生不一致的答案。”


不过游家轩坚信路由技术将成常态。他表示:“业内同样认可模型路由技术的前景。”他指出这源于技术与经济的双重考量。在技术层面,单体模型性能似乎触及瓶颈。他提到了广受认可的扩展定律,即数据与算力增长可提升模型性能。


他表示:“但众所周知,模型改进存在极限。过去一年我们亲眼见证单体模型的能力趋于饱和。”


在经济层面,路由技术使AI供应商能够重复使用旧模型,而不是在新模型发布后将其弃用。时事类查询需频繁更新,但静态事实在多年之后依旧准确。将特定查询导向旧模型,可避免浪费先前为训练模型投入的大量时间、算力和资金。


物理限制同样关键。GPU内存已成为训练更大模型的瓶颈,而芯片技术正逼近单晶片可承载的存储极限。游家轩解释称,物理限制意味着新模型的规模无法扩大十倍。



重获关注的旧理念


AI平台Lightning AI创始人兼CEO威廉·法尔肯指出,模型集成并非新概念,而是在2018年左右就已出现,由于OpenAI模型属黑箱系统,我们无法得知GPT-4是否也采用了模型路由技术。


他表示:“或许他们现在更明确地公开了这一点。”无论如何,GPT-5的发布被过度炒作——包括其模型路由系统。介绍该模型的官方博文宣称这是“迄今为止最智能、最快速、最实用的内置思维模型”。OpenAI在ChatGPT的官方博客中证实,GPT-5通过后台路由器协调多模型运行,必要时切换至深度推理模式。GPT-5系统文档更进一步列明多个变体:标准版gpt-5-main、高速版gpt-5-main-mini、思维版gpt-5-thinking、精简思维版gpt-5-thinking-mini及专业思考版,并阐述统一系统如何自动调度。


在媒体预发布会上,OpenAI CEO萨姆·奥尔特曼将模型路由器誉为解决“模型选择难题”的方案。他表示旧版模型选择界面是“一团糟,令人迷惑”。


但法尔肯认为,核心问题在于GPT-5未带来跨越式提升。“从GPT-1到2、3、4,每次迭代都有巨大飞跃。而第四代到第五代的改进微乎其微,这才是用户不满的根源。”



多模型叠加能否实现AGI?


关于模型路由的争议引发部分人士批评当前对通用人工智能(AGI)即将实现的过度炒作。OpenAI官方将AGI定义为“在大多数具有经济价值的工作中超越人类的高度自主系统”,但奥尔特曼上周特别强调该术语“实用性不足”。


TensorOpera联合创始人、AI研究员何朝阳在X平台发文批评GPT-5的发布称:“承诺的AGI在哪里?强大如OpenAI这样的公司也无力训练超大模型,被迫采用实时模型路由器。”


AI生产平台Anyscale的联合创始人罗伯特·西哈拉表示,AI领域仍在持续扩展,但全能型单体模型仍遥不可及。他表示:“很难打造出样样精通的全能模型。”这正是GPT-5依赖路由连接的模型网络而非单体架构的原因。


OpenAI曾表示希望未来整合为单一模型,但西哈拉强调混合系统具备实质优势:你可以逐步升级系统中的某个部分,不会影响其他部分的运行;这样既能获得大部分性能提升,又能避免重新训练整个庞大模型所带来的高昂成本和复杂性。因此他认为路由技术将长期存在。


何朝阳对此表示认同。理论上扩展定律依然成立,即更多数据与算力能提升模型性能,但在实际操作中,他认为AI的发展会在两种路径之间“螺旋式推进”:一方面是将多个专用模型通过路由机制组合使用,另一方面则是尝试将它们整合成一个统一的大模型。决定因素在于工程成本、算力与能源限制,以及商业压力。


对AGI的过度炒作也需要调整。法尔肯在谈及大语言模型的“大脑”时表示:“如果真有人做出接近AGI的东西,我不确定那是否会由一组权重参数来实现。如果是一组模型组合起来,整体看起来像是AGI,那也没问题。我们在这方面不要拘泥于纯粹主义。”(财富中文网)


译者:刘进龙


审校:汪皓

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|www.hutong9.net

GMT-5, 2025-8-18 10:35 AM , Processed in 0.055981 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表