找回密码
 注册
搜索
查看: 22|回复: 0

李飞飞和杨立昆,看中了这个AI新风口

[复制链接]
发表于 2026-6-27 02:53 PM | 显示全部楼层 |阅读模式


李飞飞和杨立昆,看中了这个AI新风口

美联社 财富FORTUNE
2026年6月27日 08:06


计算机科学家路易斯·卡斯特里卡托在深耕大语言模型研究的第八个年头,开始感到自己的研究仿佛走入了瓶颈。大语言模型正是驱动ChatGPT、Claude等聊天机器人的AI技术。


卡斯特里卡托表示:“我们基本上已经过了做真正大语言模型底层研究的阶段,现在只剩下应用层面的工作。”


这位研究人员放弃了在布朗大学的博士学业,创办了一家名为Overworld的新公司。公司的名字便暗藏雄心:打造不仅能读懂文字,更能理解和探索现实世界的AI。


1.jpg

图片来源:视觉中国


AI聊天机器人仍然蕴藏着巨大的商业价值。投资者正是因为看好这一前景,才向Anthropic、OpenAI等头部开发商豪掷巨额资金。但越来越多AI创业者正在转换赛道,全力押注下一个前沿领域——“世界模型”。这类模型旨在让AI系统甚至机器人,学会在真实的物理环境中作出反应。


多位该领域最具影响力的科学家也投身这一浪潮,比如被誉为“AI教母”的李飞飞。她将“世界模型”描述为“当今AI领域最重要、也最容易被滥用的术语之一”。


科学家正借助“世界模型”将AI推向新维度


世界模型研究的核心理念是:如果AI只能读懂书面文字,那它还称不上真正的智能,它还必须能够“理解现实环境”。


李飞飞创办了初创公司World Labs,总部位于旧金山。她本月撰文指出:“大语言模型学习的是文本的统计结构,而世界模型学习的是空间与时间的统计结构:比如光线如何投射在物体表面;一个花园在从未被镜头拍下的角度会呈现何种景象;以及物体如何受力并遵循物理定律等。”


杨立昆同样是世界模型的拥趸。去年他辞去了Meta首席AI科学家的职务,在巴黎创办了Advanced Machine Intelligence Labs。


杨立昆近日在播客节目《Unsupervised Learning》中表示:“世界模型正迅速成为AI领域的一个热门词汇。”在他看来,世界模型能够让AI智能体“预测自身行为可能产生的后果”。


行业对“世界模型”尚无统一定义。无论是用于机器人,还是打造互动性更强的电子游戏,研究者往往会根据自己希望借助这项技术实现的目标,赋予它不同的含义。


只靠文本训练的AI模型,无法让机器人进化


和现有的大语言模型一样,通过消化人类的海量书籍、新闻报道和视觉媒体内容进行训练,已经催生出各类AI助手,它们正在改变办公室工作和部分创意行业的本质。但一些研究者看到了生成式AI模型的局限性,它们的工作原理,无非是反复预测下一个词或像素,从而生成新的对话、图像或代码。


美国卡内基梅隆大学算机学院院长马夏尔·埃贝尔指出,“聊天机器人连一个咖啡杯都拿不起来。”


埃贝尔说:“端起咖啡杯这个动作,涉及现实世界的几何结构、手部的运动机制,以及手与杯子接触时产生的物理交互,复杂性远超预测一句话中的下一个词。”


埃贝尔从事机器人研究已有40多年。对他这样的科学家而言,世界模型最有价值的应用,是为“物理AI”开辟一条更快速、更廉价的落地捷径。“物理AI”同样是当下科技行业的热门概念。


谈及对物理AI的定义,埃贝尔表示:“不同的人可能有不同的定义,但物理AI或具身智能,可以看作是传统机器人技术的演进。”他还表示,那些让聊天机器人大放异彩的AI技术突破,也可以用来构建对环境有充分感知能力的AI,充当机器人的“大脑”。


“在你的身体和脊髓里,有一套非常通用的模型,负责如何保持平衡、如何行走。比如当早晨膝盖疼痛时,你就会换个姿势走路,无需刻意思考,”他说,“因为你的神经系统和大脑中的通用模型,能够让身体迅速适应变化。”


模拟世界正吸引更多投资者的目光


更智能的机器人并世界模型的终极目标。卡斯特里卡托去年创办了Overworld,这家位于罗德岛的小型初创公司正在构建能够动态变化的游戏世界。例如,一片阴森的森林场景,随着虚拟角色不断移动和与场景内物体的互动而实时变化。


“放眼现有的世界模型,都无法做到让角色直接穿门而过,或者与一个细节如此丰富的环境进行互动,”他在一次采访中说,“我们的优化核心就是交互。”


尽管世界模型的短期应用场景不像AI编程工具那样直观清晰,但该领域依然吸引了风险资本的关注,Kindred Ventures联合创始人兼管理合伙人史蒂夫·张就是其中之一。


Kindred Ventures已投资了Overworld等多家专注于世界模型的企业,包括开发天气预测AI模型的Causal Labs,以及专攻适配世界模型专用芯片的Extropic。


史蒂夫·张认为,未来会同时存在多种不同类型、不同理念和架构的模型。“我不认为最终会出现一个庞大而臃肿的单一模型包揽一切。”


在最近发表的文章中,李飞飞尝试建立一套“世界模型分类体系”,帮助厘清当前各种不同理念所造成的混淆。


她写道:“一个视频模型,能够生成绚丽却违背物理规律的火焰;一个大语言模型,能够即兴编出一个可玩的游戏;一个物理引擎,能够真实模拟燃烧过程,这三者都被冠以‘世界模型’的名号。”


她将世界模型划分为三类。目前最具商业化潜力的是“渲染器”,它们追求虚拟世界视觉效果的高度逼真,但并不足以真正训练机器人。


另外两类分别是“模拟器”和“规划器”,模拟器用于构建能够真实反映现实世界物理结构的虚拟训练环境;规划器的目标是在非结构化开放环境中推演AI智能体或机器人的下一步行动方案。


“具备规划能力的机器人,才能真正投入使用。整个行业都在争夺率先实现这一目标的机会。”李飞飞写道。(财富中文网)






·从“预测下一个词”到“预测自身行为在现实中产生的后果”,AI正在向行动智能延伸,科技企业可以重新思考,利用在物理世界中“知行合一”的AI,所在行业将迎来怎样的重构。


·尽管风险资本正加速涌入,但相比直观清晰的AI编程工具,世界模型的短期应用场景并不明确。投资者需要厘清新风口背后的“分类体系”,避免盲目追逐概念。


·从天气预测模型到适配世界模型的专用芯片,创投机构正围绕“多样化架构”展开全面布局。未来不会是单一巨型模型统治一切,而是多种架构并存。这暗示着留给科技公司的生态机会远比想象中丰富。


编辑:魏雨彤

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|www.hutong9.net

GMT-5, 2026-6-29 02:51 AM , Processed in 0.092431 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表