Ilya罕见发声：大模型「大力出奇迹」到头了

源济 · 发表于 2025-11-28 06:02 PM

Ilya罕见发声：大模型「大力出奇迹」到头了

Jay 发自凹非寺
量子位 | 公众号 QbitAI

AI正从「规模时代」，重新走向「科研时代」。

这是Ilya大神在最新采访中发表的观点。

这一次，Ilya一顿输出近2万字，信息量爆炸，几乎把当下最热门的AI话题都聊了个遍：

AI为什么总在泛化上输给人类？如何保证安全与对齐？预训练范式有什么问题？

Ilya认为，目前主流的「预训练 + Scaling」路线已经明显遇到瓶颈。与其盲目上大规模，不如把注意力放回到「研究范式本身」的重构上。

不少网友也认同这个判断。

然而，对于已经喊了好几年「LLM已死」的LeCun来说，这一幕未免有些令人无语。

甚至在X上转发梗图，大概意思是：

咋我说的时候没人当回事儿呢？

以下附上访谈全文，在不改变原意的前提下，对语言做了适当润色。

访谈全文

Ilya Sutskever

你知道最疯狂的是什么吗？是这一切都是真的。

Dwarkesh Patel

你指的是什么？

Ilya Sutskever

你不这么觉得吗？所有这些AI的事儿，整个湾区现在发生的一切——这不就像科幻小说里的情节变成现实了吗？

Dwarkesh Patel

另一个疯狂的点在于，「慢起飞」在体感上有多正常。按理说，人类拿出1%的GDP投到AI上，这听起来本该是件惊天动地的大事，但现在真实感受上就是……还好。

Ilya Sutskever

事实证明，我们适应新东西的速度其实挺快的。而且现在这一切还是有点抽象。那意味着什么呢？

就只是你在新闻里看到：某家公司宣布又投了多少多少美元。你能感受到的就到此为止了，暂时不会以别的方式真正「砸到你身上」。

Dwarkesh Patel

要不我们就从这儿开始聊？我觉得这个话题挺有意思。

我觉得你刚才那个观点——从普通人的视角看，就算到了奇点，生活也「没那么不一样」——大概率会一直成立。

Ilya Sutskever

不，我不这么觉得。我刚才说「感觉不出太大区别」，指的是那种：「好吧，某家公司又宣布了一个巨大得难以想象的投资数字。」这种东西大家其实无从感受，它只是个数字，普通人不知道该怎么处理这种信息。

但我认为AI的影响是会被真正「感受到」的。AI会渗透进整个经济体系里，会有非常强的经济动力去推动这一点，我觉得它带来的冲击会非常明显。

Dwarkesh Patel

你觉得这种冲击会在什么时候到来？现在的情况就是：模型看起来比它们在经济上体现出的影响「聪明得多」。

Ilya Sutskever

对，这正是当下这些模型最让人困惑的地方之一。你如何去调和这样一个事实：一方面它们在各种评测上表现得非常好——你看看这些评测就会说，「这些题挺难的啊」，模型却做得很好；

另一方面，经济上的实际影响却明显落后很多。很难理解：一个模型怎么可能在某些方面做出这么惊人的事情，同时在另一些场景里又会干出像「连犯两次同样的错误」这种事？

举个例子：假设你用所谓的vibecoding干点事情，跑去某个地方写了段代码，然后遇到一个bug。你跟模型说：「帮我修一下这个bug。」模型说：「天哪你说得太对了，是有个bug，我这就给你修。」

然后它给你引入了第二个bug。接着你又说：「你现在多了一个新的bug。」它又说：「天哪我怎么会这么干，你又说对了。」然后把第一个bug再次引回来。你们俩就这样反复在这两个bug之间来回切换。

怎么会这样？我也不确定。但这确实暗示着这里面有点奇怪的东西。

我有两种可能的解释。比较「异想天开」的那个解释是：也许RL训练让模型变得过于单一目标、过于「直线型」，在某些方面反而缺乏觉察力——尽管在其他方面它又更有觉察力。正因为这种过度单向专注，反而会让它在一些很基础的事情上做不好。

但还有另一种解释：在大家还只做预训练的时候，「该用什么数据」这个问题其实已经被回答了——答案就是「全部的数据」。做预训练你就是要所有数据，用得越多越好，所以你不必去纠结「要这一份数据还是那一份数据」。

可当人们开始做RL训练时，就不得不思考这个问题了。

大家会说：「我们想要针对这个能力做这样一种RL训练，针对另一个能力做那样一种RL训练。」据我所知，各家公司都有专门的团队不停地产出新的RL环境，然后把它们加进训练混合里。

问题是：这些环境到底是什么？这里有巨大的自由度——你可以设计出千奇百怪的RL环境。

其中一种做法，我觉得在现实中是「无意间发生」的，就是：大家会从eval中汲取灵感。「我希望我们家模型上线时，评测成绩好看。那我们应该设计什么样的RL训练，才能让它在这项任务上的表现变好？」

我认为这种事情确实在发生，它可以解释目前很多现象。

如果你再把这点和「模型的泛化实际上还不够好」结合起来，就很有可能解释我们看到的大部分情况：也就是——为什么评测表现与真实世界表现之间有这么大的落差。而这个「落差到底是什么意思」，其实是我们到今天都还没想清楚的。

Dwarkesh Patel

我很喜欢这个说法：真正的「奖励黑客」不是模型，而是那些过度关注eval的人类研究者。

你刚才提到的这个问题，我觉得可以从两种角度去理解。

一种角度是：如果事实证明，「在编程竞赛上达到超人水平」并不会自动让一个模型在实际代码库中更有品味、更会做判断，那答案也许就是：你应该扩展环境的集合，不要只测试它在竞赛题里能不能拿最高分，还应该测试：它能不能为X场景做出最好的应用？能不能为Y场景、Z场景写出真正好用的东西？

另一种角度是：「为什么一开始我们要假设：在编程竞赛上变成超人，就一定能在更广泛的意义上变成一个更有品味的程序员？」

也就是说，或许正确的策略不是不停往上叠不同的环境，而是想出一种方法：能让模型从一个环境中学习到的东西迁移到另一个任务里，从而真正提升「广义能力」。

Ilya Sutskever

我有个类比，也许对理解这个问题有帮助。既然你刚才提到竞赛编程，那我们就拿它来举例。

假设现在有两个学生。学生A决定要成为最强的竞赛程序员，于是花了一万小时专门练这一个领域。他把所有题都刷了，背熟了所有证明技巧，非常擅长快速、正确地实现各种算法，最后果然成了顶尖选手。

学生B的想法是：「竞赛编程挺有意思的。」他也练了，但只练了大概100小时，远远少于前者，但成绩依然不错。

你觉得这两个人中，谁未来职业发展会更好？

Dwarkesh Patel

是第二个。

Ilya Sutskever

对。我觉得现在模型的状况，基本就像学生A——甚至更极端。

因为我们会说：「好，我们要让模型在竞赛编程上表现出色，那就把所有竞赛题都喂进去。」然后还要做数据增强，造出更多变体题，再用这些海量的竞赛题来训练。结果就是，你得到了一名非常优秀的「竞赛程序员型模型」。

在这个类比下，很多事就更直观了。

当你在这个细分领域训练得这么极致所有算法、所有证明技巧都随手可得，你就更容易理解：为什么这样的训练未必能很好地泛化到其他任务上。

Dwarkesh Patel

那在人类世界里，第二个学生在那100小时「微调训练」之前，究竟在做什么，类比到模型上又是什么？

Ilya Sutskever

我觉得那就是所谓的「it」——那个「那股劲儿」。我本科的时候就认识过这样的人，所以我知道这种存在是现实的。

Dwarkesh Patel

我觉得有趣的一点在于，要区分这个「it」和「预训练到底做了什么」。

理解你刚才关于预训练数据选择的一个方式是：其实它跟「一万小时练习」并没有那么不同，只是你可以把那一万小时「免费打包」到预训练里，因为这些内容本身就存在于预训练的数据分布中。

但也许你在暗示的是：预训练其实并没有带来我们想象中的那么多泛化，它只是依赖了海量的数据量，但这种泛化未必比RL更强。

Ilya Sutskever

预训练最大的优势在于两点：第一，数据量极其庞大；第二，你不用特别纠结「选哪些数据」，因为要做的就是——全要。

这些数据非常「自然」，里面包含了各种各样人类的活动：人们的想法、经验，以及大量关于世界的特征。可以说，它是「人类把世界投射到文本上的那一层」。预训练的目标就是：用巨量数据去捕捉这层投射。

预训练之所以难以被彻底理解，是因为我们很难弄清楚：模型究竟是以什么方式在利用这堆预训练数据。

每当模型犯错时，你都会想：「是不是因为碰巧某个东西，在预训练数据里支持得不够？」这里的「被预训练数据支持」，其实是个很松散的说法，我也不太确定能不能把它解释得更好。

我不认为人类世界里存在一个真正对应「预训练」的类比。

情绪和价值

Dwarkesh Patel

以下是一些人们提出的关于人类「前期训练」的类比。我很想听听你们的看法，为什么这些类比可能存在问题。

一种类比是思考一个人生命的前18年、15年或13年，这段时间他们未必具有经济生产力，但他们所做的事情让他们更好地理解世界等等。另一种类比是将进化想象成一场持续30亿年的探索，最终形成了人类的一生。

我很好奇你是否认为这两者类似于预先训练。如果不是预先训练，你会如何看待人类终身学习？

Ilya Sutskever

我认为这两者与预训练有一些相似之处，预训练试图同时扮演这两者的角色。但我认为它们之间也存在一些很大的差异。预训练数据的数量非常非常庞大。

Ilya Sutskever

不知何故，即使人类拥有预训练数据的一小部分，经过15年的训练，他们所掌握的知识仍然远不及AI。但无论他们掌握了什么，他们的理解都更加深刻。到了那个年纪，你都不会犯AI会犯的错误。

还有一点。你可能会问，这会不会跟进化有关？答案是也许吧。但就这件事而言，我认为进化论可能更有优势。我记得读过相关的案例。神经科学家了解大脑的一种方法是研究大脑不同区域受损的人。有些人会出现你想象不到的奇怪症状。这真的很有意思。

我想到一个相关的案例。我读到过一个人，他脑部受损，可能是中风或意外事故，导致他丧失了情感处理能力。所以他不再能感受到任何情绪。他仍然能言善辩，也能解一些简单的谜题，考试成绩也一切正常。

但他感觉不到任何情绪。他不会感到悲伤，不会感到愤怒，也不会感到兴奋。不知何故，他变得极其不擅长做任何决定。他甚至要花几个小时才能决定穿哪双袜子。他在财务方面也会做出非常糟糕的决定。

这说明我们与生俱来的情感在使我们成为合格的行动主体方面扮演着怎样的角色？说到你提到的预训练，如果你能充分发挥预训练的优势，或许也能达到同样的效果。但这似乎……嗯，预训练是否真的能达到这种效果还很难说。

Dwarkesh Patel

「那」是什么？显然不仅仅是情绪。它似乎是一种类似价值函数的东西，告诉你任何决定的最终回报应该是什么。你认为这不会在某种程度上隐含在预训练中吗？

Ilya Sutskever

我觉得有可能。我只是说这并非百分之百确定。

Dwarkesh Patel

但那是什么？你如何看待情绪？机器学习中情绪的类比是什么？

Ilya Sutskever

它应该是一种价值函数之类的东西。但我认为目前还没有很合适的机器学习类比，因为价值函数在人们的实际行为中并没有扮演非常重要的角色。

目前强化学习的训练方法很简单，人们是如何训练这些智能体的呢？首先，你需要一个神经网络，然后给它一个问题，并告诉模型「去解决这个问题」。模型可能需要成千上万次的动作、思考或其他操作，最终生成一个解决方案。然后，这个解决方案会被评分。

然后，这个分数会被用来为你的轨迹中的每一个动作提供训练信号。这意味着，如果你正在执行一个持续时间很长的任务——如果你正在训练一个需要很长时间才能解决的任务——那么在你找到建议的解决方案之前，它根本不会进行任何学习。这就是强化学习的简单实现方式。这就是o1和R1的实现方式。

价值函数表达的意思类似于：「我或许有时能告诉你你做得好还是不好。」价值函数的概念在某些领域比其他领域更有用。例如，当你下棋丢掉一个棋子时，我犯了错。你不需要下完整盘棋就能知道我刚才的走法不好，因此之前的任何走法也都不好。

值函数允许你缩短等待时间，直到最后才做出决定。假设你正在进行某种数学运算或编程，并试图探索某个特定的解决方案或方向。经过大约一千步的思考后，你得出结论，这个方向没有希望。

在你得出这个结论的那一刻，你就可以提前一千步收到奖励信号，也就是在你决定沿着这条路径前进的时候。也就是说，在你真正想出解决方案之前很久，你就已经告诉自己：「下次遇到类似情况，我不应该再走这条路了。」

Dwarkesh Patel

这是DeepSeekR1论文中提到的——轨迹空间如此之大，以至于可能很难从中间轨迹和值之间学习映射关系。

此外，例如在编程中，你可能会有错误的想法，然后你会回头修改，然后再修改一些东西。

Ilya Sutskever

这听起来像是对深度学习缺乏信心。当然，它可能很难，但没有什么深度学习做不到的。

我预期价值函数会很有用，而且我完全相信它们将来会被用到，即便现在还没有。

我之前提到的那个情感中心受损的人，或许更确切地说，这表明人类的价值体系在某种程度上受到情感的调节，而这种调节方式是由进化预先设定的。也许这对于人们在社会上有效运作至关重要。

Dwarkesh Patel

这正是我要问你的问题。关于价值函数中的情感因素，确实有一点非常有趣，那就是它们既实用又相当容易理解，这一点令人印象深刻。

Ilya Sutskever

我同意，与我们所学习和讨论的事物，以及我们所讨论的AI相比，情感相对简单。它们甚至可能简单到可以用人类能够理解的方式将其描绘出来。我觉得这样做会很酷。

但就实用性而言，我认为存在一种复杂性与稳健性之间的权衡：复杂的东西可能非常有用，但简单的东西在更广泛的情况下也同样有用。

我们可以这样解读我们所看到的现象：这些情感主要源自我们的哺乳动物祖先，然后在我们进化成原始人类的过程中略作调整。

我们确实拥有相当数量的社会情感，而哺乳动物可能缺乏这些情感。但这些情感并不十分复杂。

正因为它们并不复杂，所以在这个与我们过去生活的世界截然不同的世界中，它们才能如此有效地帮助我们。

实际上，它们也会犯错。例如，我们的情绪……嗯，其实我也不知道。饥饿算是一种情绪吗？这还有待商榷。但我认为，在这个食物丰富的世界里，我们凭直觉感受到的饥饿感并不能正确地引导我们。

我们在扩展什么？

Dwarkesh Patel

人们一直在讨论数据扩展、参数扩展和计算扩展。那么，有没有更通用的扩展思路？还存在其他扩展维度吗？

Ilya Sutskever

我认为有一个可能正确的观点。过去的机器学习基本依赖于人们不断尝试各种方法，看看能否得到有趣的结果——这是早期的模式。

后来，「规模化」这个洞察出现了。规模化法则、GPT-3……突然之间，所有人都意识到：我们应该去规模化。这其实是语言如何影响思维的例子。「规模化」只是一个词，却非常有力量，因为它直接告诉大家应该怎么做——「继续扩大」。

于是问题来了：要扩大什么？预训练，恰恰是最需要规模化的东西。它是一种非常清晰的「配方」。

预训练最大的突破，在于它证明了这套配方是可行的：只要你把一定量的数据和算力灌进一个规模足够大的神经网络，就会得到好的结果。你也自然会相信：继续放大，效果就会继续提升。

这种方法的优势是，公司愿意为它投入资源——因为这是「低风险投入」。相比之下，把资源投入研究要困难得多。研究意味着：「研究人员请继续探索，争取有所突破」，而不是「再拿点数据、再加点算力」。但预训练几乎能保证一定的收益，这种确定性非常诱人。

根据推特上某些讨论，Gemini似乎找到了让预训练更有效的方法。但预训练最终会遇到一个硬上限：数据有限。那之后怎么办？要么寻找新的「强化预训练」方式，要么探索强化学习，或其他完全不同的路径。当算力巨大到一定程度，我们又会重新回到「科研时代」。

如果要划时代：2012—2020是研究时代；2020—2025是规模化时代。

这几年大家几乎都在喊「继续扩大！再扩大！」。但当规模已经这么大时，你真的会相信再扩大100倍就能彻底改变一切吗？

会有变化，但我不认为仅靠更大规模就能带来根本性的转折。我们正重新回到研究时代，只不过这一次，我们手里多的是巨型计算机。

Dwarkesh Patel

你刚才说到一个概念——「配方」。那我们究竟在扩展什么？这个配方到底意味着什么？在预训练里，数据、算力、参数量、损失函数之间并不存在一种像物理定律那样明确的关系。那我们到底应该追求什么？新的配方应该怎么构思？

Ilya Sutskever

我们已经看到了规模化路径的迁移：从预训练转向强化学习。

如今大家正在扩展的是强化学习。从外界讨论看，近期RL消耗的计算量可能已经超过了预训练，因为RL天生「烧算力」——它需要极长的迭代过程，而每次迭代的学习增益又很小。结果就是，它极其耗算力。

我甚至不愿意把它称为「扩展」。我更愿意问的是：「你的做法是最有效率的吗？你能不能找到更经济的方式去利用算力？」这就回到之前提到的价值函数。如果人们真的掌握价值函数，也许资源利用效率能提高很多。

但当你提出一个全新的训练方法时，又会产生另一个问题：「这到底是扩展，还是在浪费算力？」这两者之间的界限正变得越来越模糊。从某种意义上说，我们正在回到从前那种科研模式：「试试这个，再试试那个……哦，那里有点意思。」我认为这种局面会再次出现。

Dwarkesh Patel

如果我们真的进入了新的研究时代，哪些部分是最值得重新审视的？你提到的价值函数现在被广泛应用，大家也把LLM引入为评判者。但这似乎仍只是在现有流程末端做加法。是不是应该重新思考预训练，而不仅仅是在其后叠更多步骤？

Ilya Sutskever

我认为关于价值函数的讨论非常有意思。我想强调的是，价值函数确实能让强化学习更高效，我相信这会带来显著的提升。但我同样认为，只要给足时间和算力，任何价值函数能做到的事情，不用价值函数也能做到——只是速度会慢很多。

最根本的问题是：这些模型的泛化能力远远不如人类。这是显而易见的，而且我认为它是最核心、最棘手的问题所在。

为什么人类比模型更擅长概括

Dwarkesh Patel

所以关键就在于泛化能力。这里其实包含两个子问题。

第一个问题更偏向样本效率：为什么这些模型需要比人类多得多的数据才能学会一项能力？

第二个问题是：即使不谈数据量，为什么让模型真正理解「我们想要它做什么」比让人类理解同一件事要困难得多？

对人类来说，学习并不依赖明确的奖励信号。比如，你现在可能正在指导一群研究人员，你和他们交流、展示代码、解释思考方式，他们就能从中学会如何进行研究；你并不需要为他们设立一个个可验证的奖励环节，比如：「这是课程下一部分」「这一轮训练不太稳定」之类的人工流程。

这两个问题或许是相关的，但我想分别讨论：第二个更像「持续学习」，第一个更像「样本效率」本身。

Ilya Sutskever

关于人类样本效率，最可能的解释之一就是进化。进化在视觉、听觉、运动等核心能力上，为我们提供了少量但极其有用的「先验」。

例如，人类的灵巧度远超机器人。即便机器人在模拟环境中可以通过大量训练变得灵巧，但要让机器人在现实世界里像人一样快速掌握一项新技能，几乎不可能。你可能会说：「哦，对，移动能力是我们祖先在数百万年里都极度依赖的能力，所以我们拥有某些不可思议的进化先验。」

视觉也类似。YannLeCun曾说，孩子练十个小时就能学会开车。确实如此——但那是因为孩子的视觉系统极其强大。我记得自己五岁时，对汽车非常着迷。我可以肯定，五岁时我对汽车的视觉认知已经足够支撑基本的驾驶操作了。但五岁孩子的信息摄取量其实非常有限，大部分时间都只在父母身边。
这说明视觉能力可能深深植根于进化，而非后天学习。

但当我们谈到语言、数学、编程时，它们出现得太晚了，不太可能是进化带来的。

Dwarkesh Patel

但即使在这些「近期才出现的能力」上，人类似乎仍然比模型更强。模型虽然在语言、数学、编程上已经优于普通人类，但它们在学习能力上真的更好吗？

Ilya Sutskever

是的，当然如此。语言、数学、编程——尤其是数学和编程——表明，人类擅长学习的能力，可能并不是因为复杂的进化先验，而是某种更基础、更普遍的能力。

设想某项能力，如果它对我们的祖先在数百万甚至上亿年里都十分重要，那么人类在这方面可靠而稳定的表现，很可能来自进化层面的先验知识——某种隐秘编码在我们神经系统里的东西。

但如果人类在一些「近期才被发明的能力」上——如数学、编程——依旧表现出极强的学习能力和稳健性，那这就更像是人类天生就拥有一种「通用的机器学习能力」。

换句话说：如果连不靠进化积累的领域，人类依然能快速学习，那真正的关键可能并不是先验知识，而是人类学习机制本身的效率。

Dwarkesh Patel

那我们该如何理解这种「学习能力」？它似乎具有一些很特别的特征，比如：它需要的样本量很少，更像无监督学习。青少年学开车，并不是通过预设奖励体系学习，而是通过与环境的互动。

他们的样本量很低，却能快速掌握，而且学习过程也非常稳健。有没有机器学习的类比？

Ilya Sutskever

你刚才提到青少年司机如何在没有外部指导的情况下自我纠正、从经验中学习。我认为答案在于他们拥有自己的价值体系。

人类有一种极其强大的普遍感知能力。无论价值体系是什么——除了少数被成瘾行为破坏的例外——它在绝大多数情况下都是非常稳固的。

所以，对正在学车的青少年来说，他们一坐上驾驶座，立刻能感觉到自己驾驶得有多差、哪里不稳。他们立即拥有内在反馈，于是自然开始改进。再加上年轻人本身学习速度极快，十个小时之后，他们基本就能熟练驾驶了。

Dwarkesh Patel

我好奇的是，他们究竟是怎么做到的？为什么对我们来说这么自然，而对模型来说却如此困难？我们需要怎样重新构思模型训练方式，才能逼近这种能力？

Ilya Sutskever

这是个非常好的问题，我对此也有很多想法。但是，很遗憾，我们现在处在一个并非所有机器学习理念都能公开讨论的时代，而这正是那些无法轻易公开讨论的想法之一。

我相信是有路径可以做到的。我认为这是可以实现的。而且，人类的这种直觉，本身就暗示了这种方法的可行性。

当然，可能还存在另一个难点：人类神经元的计算能力，可能比我们以为的还要强很多。如果这是事实，而且对学习过程至关重要，那么我们要做的事情会更复杂。

但无论如何，我相信这确实指向某种机器学习的根本原理。只是出于某些原因，我无法进一步详述。

ASI

Dwarkesh Patel

我很好奇。如果你认为我们已经重新进入「科研时代」，那么作为当初经历过2012–2020那段时期的人，你觉得现在的科研氛围会是什么样的？

比如，即使在AlexNet之后，人们用于实验的计算量仍持续增长，前沿系统的规模也不断扩大。你认为如今的科研时代是否同样需要庞大的计算资源？需要重新翻阅旧论文吗？

你曾在谷歌、OpenAI、斯坦福大学工作，那里都属于学术氛围最浓的地方。你觉得未来的研究社区会呈现什么景象？

Ilya Sutskever

规模化时代的一个结果，是规模本身挤压了创新空间。由于「扩大规模」被证明有效，所有人都去做同一件事，最后变成「公司数量远远超过创意数量」的局面。

硅谷有句老话：「创意不值钱，执行力才重要。」这话有道理。

但后来我在推特上看到一句反讽：「如果创意这么便宜，为什么没人有创意？」我觉得这同样准确。

如果你从「瓶颈」的角度看科研，会发现有好几个瓶颈：一个是想法本身，另一个是把想法变成现实的能力，而后者往往依赖计算资源或工程能力。

比如，上世纪90年代许多研究者其实有不错的想法，但受限于算力，他们只能做很小规模的演示，没法说服任何人。因此当时真正的瓶颈是计算资源。

在规模化时代，算力暴涨，瓶颈就转移了。当然，我们仍然需要一些计算资源，但并不意味着科研一定要用到极限的规模。

举个例子：AlexNet只用了两块GPU。Transformer刚出现时的实验规模，大多在8～64块GPU范围内。按今天的标准看，那甚至相当于几块GPU的规模ResNet也一样。没有哪篇论文靠庞大的集群才能完成。

你可以说，如果要构建一个「最强系统」，更多算力一定有帮助——尤其在大家都遵循同一范式的情况下，算力自然会成为差异化因素之一。但科研本身，其实不需要无限制的大规模计算。

Dwarkesh Patel

我问这些，是因为你当时就在现场。当Transformer刚提出时，它并没有马上爆红。它成为入门工具，是因为后来在越来越大的算力上不断被验证，模型规模提升后效果也持续提升，大家才开始真正基于它进行实验和扩展。

那假设SSI有50个不同方向的想法，在没有其他顶尖实验室那种巨大算力的情况下，你们怎么判断哪个是可能的「下一次变革」，哪个想法太脆弱？

Ilya Sutskever

这里我可以稍微解释一下。你提到了SSI——事实上，我们的研究算力比外界想象的要多。

原因很简单：SSI虽然「只有」30亿美元，但你要注意，对大多数大公司来说，它们巨额的算力预算主要用于推理。这些钱、贷款、GPU资源，都必须用于产品推理服务。

其次，如果你要打造面向市场的AI产品，就需要庞大的工程、销售团队，需要大量资源去做产品相关功能。真正能用于纯研究的资源，扣掉这些之后，其实并没有想象得那么高。

反过来看SSI，我们的资金绝大部分用于研究，因此可用于实验的算力并不少。

更重要的是：如果你在做「与众不同」的研究，真的需要极限规模来证明它吗？我不这么认为。对于我们要验证的方向，目前的算力完全足够让我们说服自己，也说服世界。

Dwarkesh Patel

公开估计显示，比如OpenAI这样的公司，仅在实验上的年度开销就有50–60亿美元，还不算推理服务的成本。他们每年在研究实验上的投入甚至比你们的总经费还高。

Ilya Sutskever

关键不在于「有多少算力」，而在于「如何使用算力」。

他们的系统规模巨大，模态更多，工作流更多，因此算力需求自然庞大且分散。你要做一个能推理、能多模态、能产品化的系统，需要在非常多的环节投入计算资源。

但这不代表研究一定需要那种规模。

Dwarkesh Patel
那SSI未来会如何盈利？

Ilya Sutskever
目前我们只专注于研究。商业化问题到时候自然会水到渠成，我认为会有很多可能的路径。

Dwarkesh Patel
SSI的计划仍然是直接研发超级智能吗？

Ilya Sutskever
也许吧，这个方向确实有意义。避免卷入市场竞争是一件好事。但有两个原因可能促使我们改变策略：

第一，实际时间表可能比预期更长；
第二，真正强大的AI造福世界的价值巨大，我认为这是非常重要的事。

Dwarkesh Patel

那为什么默认策略要「直接研发超级智能」？

OpenAI、Anthropic等公司强调要逐步增强能力、让公众慢慢适应。为什么直接冲向超级智能反而可能更好？

Ilya Sutskever

正反两方面都有道理。

正方观点是：参与市场竞争会迫使公司做出艰难权衡，可能偏离长期目标。完全专注于研发是极具优势的。

反方观点是：让大众真正看到强大的AI，本身就是一种价值。你无法通过一篇论文或一套理念来「解释」AI的冲击力——只有亲眼看到它在做什么，人们才会真正理解。这就是为什么大规模部署AI会带来巨大社会收益。

Dwarkesh Patel

我同意，不仅是理念，更是让人真正「接触AI本身」。另一个原因在于：几乎所有工程领域都依靠「现实世界中的部署」不断提高安全性。

比如：飞机的事故率随每一代机型不断下降；Linux漏洞越来越难找到；系统越来越稳健。因为它们被全球范围使用，问题被发现，然后被修补。

我不确定AGI或超级智能为什么应该是个例外。尤其是——超级智能的风险远不止「回形针恶魔」那样的故事。它太强大了，我们甚至不知道人们会如何使用它，更不知道它会如何与人类互动。

逐步普及似乎是让社会做好准备的更安全方式。

Ilya Sutskever

我认为，即使采取「直接实施」的路线，也必然是一个循序渐进的过程。任何计划都必须分阶段推进，关键是你最先推出的是什么。

第二点，你比其他人更强调「持续学习」，我认为这非常重要。我想用一个例子来说明语言如何影响我们的思维。有两个词几乎定义了整个行业的认知：一个是「AGI」，另一个是「预训练」。

先说AGI。这个词为什么会出现？它的目的并不是为了描述某种「最终形态」的智能，而是对「狭义AI」的一种反应。在AI的早期，大家谈论的是「跳棋AI」、「国际象棋AI」、「游戏AI」。它们确实很强，但人们会说：它们太狭窄了，没有通用能力。因此，「我们需要通用AI」这个概念逐渐流行起来。

第二个词是「预训练」。尤其在今天的强化学习工作流下，「预训练」这个概念可能正在变得模糊。但它曾经非常重要：预训练越充分，模型在各方面的能力都会提升。换句话说，预训练促成了「通用AI」这一想法的流行。

问题在于，这两个词——AGI和预训练——其实都带来了某种误导。如果你仔细思考，就会意识到：在人类身上不存在所谓的「通用AI」。人类确实在一些基本能力上很强，但真正的知识储备极其有限，而我们真正依赖的是「持续学习」。

因此，当我们设想「创造出一种安全的超级智能」时，关键问题并不是它「已经掌握了多少技能」，而是：它在持续学习的曲线上处于哪个阶段？

想象一个非常聪明、求知欲旺盛的15岁少年。他懂得不多，但学习能力极强，可以在不同领域持续扩展技能。如果你把这样一个系统部署出去，它也会经历学习和试错的过程。这不是一个「成品」，而是一段学习旅程。

Dwarkesh Patel

明白了。你说的「超级智能」并不是一种已经掌握所有技能、能胜任所有工作的成熟系统，而更像是一个能够学习完成所有工作的「可成长心智」。它和一些组织对AGI的定义不同，后者强调「能做任何人类可以做的工作」，而你强调的是「能够学会任何工作」。

而只要有了这种学习能力，它就能像人类一样，被部署到世界各地，从事不同工作，并在工作中不断学习。

接下来可能有两种情况——也可能都不会发生。

第一种是：这种学习算法强到不可思议，它在研究方面甚至能超过你，随后不断提升自身能力。

第二种是：即便没有出现这种递归增强，只要你有一个统一的大模型，它的不同实例在全球范围内执行不同任务，不断学习，再把彼此的学习成果整合起来——那么你最终也得到了一种「功能性超级智能」。它几乎能胜任经济体系里的所有工作，而且不同于人类，它可以完美共享知识。

那么，你是否预期这种模型的广泛部署会引发某种形式的「智能爆炸」？

Ilya Sutskever：

我认为我们很有可能看到经济的快速增长。关于广泛部署的AI，业内有两种相反的观点。

一种认为：只要AI具备快速学习和执行任务的能力，而且数量足够多，经济体系就会强烈地推动它们被部署，除非监管阻止它发生——而监管很可能会出现。

另一种观点认为，即便有监管，在足够大的规模部署下，经济都会在一段时间内进入高速增长。问题只是：增长能快到什么程度？这一点很难预测。世界足够大，系统复杂，各行业的运行速度不同，但AI的劳动效率极高，因此经济快速增长是完全可能的。

我们可能会看到不同国家因监管尺度不同而出现增长差异。哪些国家更早允许部署，哪些国家的经济增长更快——很难提前判断。

源济 · 发表于 2025-11-28 06:03 PM

对齐

Dwarkesh Patel

在我看来，这是一个极其危险的局面。从理论上讲，它完全可能发生：如果一个系统既具备接近人类的学习能力，又能以人类无法做到的方式「融合多个大脑实例」，那它的潜力就会远超任何生命形式。人类可以学习，计算机能扩展，而这东西可以同时具备两者。

这种智能的威力几乎难以想象。经济增长只是其中一种表现方式——如果它真的强大到能建造戴森球，那将带来巨大的增长。而在更现实的层面，如果SSI雇佣这样的智能体，它可能在短短六个月内达到净生产力。人类学习已经够快了，但它会进步得更快。

所以关键问题是：怎样才能安全地让它发生？SSI又凭什么认为自己有能力做到这一点？我真正想问的是，你们对这种局面的计划是什么？

Ilya Sutskever

我的思维方式确实发生了一些变化，其中一个重要方面是，我现在更强调AI的逐步部署与提前规划。AI的困难之一在于：我们讨论的是尚不存在的系统，很难真正想象它会是什么样子。

现实是，如今我们几乎无法在日常实践中真实“感受到”AGI 的存在。我们可以讨论它，但想象它的力量，就像让年轻人体会衰老的感觉一样——可以尝试，但最终发现根本无法真正理解。

围绕 AGI 的很多争议，本质上都来自一种想象力的缺失。未来的AI将与现在截然不同，强大得多。AI和 AGI 的核心问题究竟是什么？就是力量。根本问题就在于它的力量。

那么，当这种力量真正出现时会发生什么？过去一年里，我的想法有了变化——这种变化可能会影响我们公司的计划。我的结论是：如果难以想象，那就必须把它展示出来。
我认为，绝大多数从事AI研究的人也难以想象未来系统的形态，因为它与我们熟悉的东西相距甚远。我仍然坚持我的预测：随着AI变得越来越强大，人类的行为会随之改变。我们会看到许多前所未有的现象，而这些现象现在尚未发生。

第一，我认为未来无论好坏，前沿公司与政府都会在其中扮演极为重要的角色。我们已经看到一些迹象：原本的竞争对手开始在 AI 安全上合作，例如 OpenAI 和 Anthropic 的一些动作。这在过去是不可想象的。我在三年前的演讲中就预测过这一幕。我相信，随着AI力量变得更明显，政府和公众也将强烈要求采取行动。这是一种关键力量：向世界展示AI的真实面貌。

第二，随着AI不断提升，人们对它的理解也会发生转变。目前许多从业者之所以觉得AI还不够强，是因为模型仍会出错。但我认为，某个时刻我们会真正“感受到”它的力量。

当这种感受出现时，所有 AI 公司的安全观念都会发生巨大转变，变得更为谨慎。这一点我非常确定。因为他们会亲眼看到AI能力的跃升。而今天的讨论之所以看不到这种谨慎，是因为人们只能看到当下的系统，而难以想象未来版本的样子。

第三，从更宏观的角度来看，有一个问题是：企业究竟该构建什么？
长期以来，业界都执迷于“能自我改进的 AI”。这背后的理由是想法比公司少——换句话说，让 AI 自己想。但我认为，还有更重要、更值得构建的东西，而且未来每个人都会想要它。

那就是：以关怀有感知生命为核心的AI。

我认为，构建一个关心所有具备感知能力生命体的AI，比构建只关心“人类生命”的AI更容易。原因在于AI本身也将具备感知能力。

想想镜像神经元，以及人类对动物的同理心——或许这种同理心不够强烈，但它确实存在。我们之所以能理解他者，是因为我们用模拟自身的回路来模拟对方，这样最有效。

Dwarkesh Patel

所以，即便你让AI关心有感知能力的生物——实际上，如果你解决了阵营问题，我并不确定这是否是你应该努力的方向——大多数有感知能力的生物仍然是AI。

AI的数量将达到数万亿，最终甚至达到千万亿。人类在有感知能力的生物中所占的比例将非常小。因此，我不确定如果目标是让人类控制未来的文明，这是否是最佳标准。

Ilya Sutskever

没错，这可能并不是最佳标准。我想强调三点。

第一，“关爱有感知能力的生命”依然非常重要，这一点应该被纳入考量。

第二，如果能够提前整理出一份包含多种可选方案、可供公司在关键时刻参考的建议清单，将会十分有价值。

第三，我认为，如果能以某种方式对最强大的超级智能体施加能力上的限制，会非常有益，因为这能解决许多潜在问题。

至于如何实现，目前我还没有明确答案，但我相信，一旦讨论的是“真正强大”的系统，这种限制的重要性将变得更加突出。

Dwarkesh Patel

在我们继续讨论对齐问题之前，我想先深入探讨一下。

顶层还有多少空间？你如何看待超级智能？你认为，如果运用学习效率的概念，它是不是只是学习新技能或新知识的速度极快？或者它只是拥有更庞大的策略库？是否存在一个位于中心、更强大或更庞大的单一「它」？

如果是这样，你认为它相对于人类文明的其他部分会像神一样吗？还是仅仅感觉像是另一个主体，或者另一个主体群？

Ilya Sutskever

在这个领域，每个人的直觉都不同。我的直觉是：未来的 AI 将会极其强大。而且最有可能的情形不是某一个单体率先出现，而是多个同等级别的 AI 几乎同时被创造出来。

如果计算集群大到相当于一个“大陆级规模”，那样的系统就会真正意义上变得极其强大。我只能说，当我们谈论的是真正强大的 AI 时，最好能限制它们的能力，或让它们在某种协议下运行，否则风险显而易见。

究竟是什么让“超级智能”如此令人担忧？问题的核心在于：即便你让它做一件看似合理的事——例如全心全意关怀所有有感知生命——我们也可能并不会喜欢它最终采取的方式。这才是真正的症结。

或许答案部分在于：你无法用通常意义上的方式构建强化学习智能体。几点原因：

人类本身也是“半强化学习智能体”：我们追求奖励，但情绪会让我们厌倦并转向新的奖励。
市场是一种短视的智能体。
进化也是如此：在某些方面极其聪明，在另一些方面却极其愚蠢。
政府被设计成三个部门持续制衡的结构，也会创造出复杂且难以预测的后果。

这些例子说明：我们熟悉的智能体类型，本身就带有结构性的限制与偏差。

讨论变得困难，还有另一个原因：我们谈论的是尚未存在的系统，也不知道应当如何构建这样的系统。

在我看来，当下所有研究都会持续推进、不断改进，但永远达不到“最终版本”。我们根本不知道该如何构建那种“最终版本的智能体”。
许多关键问题最终都指向一个核心：我们仍然不理解真正可靠的概括机制。

再补充一点。一致性难以实现的原因之一，可能在于：

我们学习“人类价值观”的能力本身非常脆弱，
我们优化这些价值观的能力也非常脆弱，
而我们恰恰是在学习如何“优化它们”的过程中逐渐形成的。

于是，这引出一个更深的问题：

难道这些不是“不可靠的概括”的例子吗？
为什么人类的概括能力似乎更强？
如果未来的系统拥有异常强大的概括能力，会怎样？其影响是什么？

这些问题，目前都无法回答。

Dwarkesh Patel

如何想象AI发展顺利的样子？你已经展望了AI可能的发展方向。我们将拥有这类持续学习的智能体。

AI将非常强大。或许会出现许多不同的AI。你如何看待大量体量堪比大陆的计算智能体？这有多危险？我们如何降低这种危险？我们又该如何做到这一点，才能在可能存在失衡的AI和恶意行为者的情况下，维护一种平衡？

Ilya Sutskever
这正是我强调「关爱有感知生命的AI」这一概念的原因之一。它是否绝对正确可以讨论，但如果最早出现的那批强大系统能真正关心、保护人类或其他有感知的生命，那么这点就必须实现。只要前N个系统做到这一点，我认为至少在相当长的时间里，局面会保持良性。

那长期会发生什么？如何实现一种稳定均衡？这个问题其实有答案，尽管我本人并不喜欢，但它值得严肃考虑。

从短期看，如果世界中存在强大的AI，几乎可以预见的是：全民收入提升，每个人都过得更好。但佛教有一句话：「唯一不变的是变化本身。」政治结构、政府形态、社会秩序都会不断变化，它们都有生命周期。新的结构出现，运行一段时间，又会在某个阶段失效，我们已经无数次看到这种循环。

所以从长期来看，一种可能的模式是：每个人都拥有一个属于自己的AI，它替你赚钱、替你争取政治利益、替你处理社会竞争，并定期给你提交一份简短的报告：「这是我为你做到的。」而你只需点头：「很好，继续吧。」

问题在于：人类完全退出了参与。这是一种高度危险的局面。

我并不喜欢下面这个方案，但它确实是一种可行路径：让人类通过某种类似Neuralink的技术，成为「半AI」。这样一来，AI所理解的，我们也能理解；AI所经历的，我们也能参与，因为这种理解会被完整地传递给人类。在这种情况下，AI若处于某个复杂情境中，人类可以真正「在场」，而不是旁观者。

Dwarkesh Patel

我想知道，数百万年前（甚至在很多情况下是数十亿年前）在完全不同的环境中形成的情感，是否仍然如此强烈地指导着我们的行为，这是否是协调一致的成功例证。

为了更清楚地说明我的意思——我不知道称之为价值函数还是奖励函数更准确——脑干有一个指令，它会说：「和更成功的人交配。」大脑皮层理解在现代语境下成功的含义。但脑干能够协调大脑皮层，并说：「无论你如何定义成功——我没那么聪明，无法理解那是什么——你仍然要遵循这个指令。」

Ilya Sutskever

我认为这里还有一个更普遍的观点。进化如何编码高级欲望，这其实非常神秘。我们很容易理解进化如何赋予我们对香味食物的渴望，因为气味是一种化学物质，所以我们会去追求这种化学物质。我们很容易想象进化是如何做到这一点的。

但进化也赋予了我们所有这些社交欲望。我们非常在意能否被社会正面看待。我们渴望拥有良好的社会地位。我强烈地感觉到，我们拥有的所有这些社交直觉都是根深蒂固的。我不知道进化是如何做到这一点的，因为这是一种存在于大脑中的高层次概念。

假设你关心某种社会现象，它并非像气味那样的低级信号，也不是某种有传感器可以感知的东西。大脑需要进行大量处理，才能将众多信息碎片拼凑起来，理解社会上正在发生的事情。进化似乎在告诉你：「这才是你应该关心的。」它是如何做到的呢？

而且进化速度也很快。所有这些我们所珍视的复杂社会现象，我认为都是近期才出现的。进化轻而易举地就将这种高层次的欲望写入了程序。至于进化是如何实现的，我目前还没有找到一个合理的解释。我之前也有一些想法，但都不太令人满意。

Dwarkesh Patel

尤其令人印象深刻的是，欲望是你后天习得的，这很合理，因为你的大脑很智能。你能习得智能欲望也合情合理。也许这并非你的重点，但理解这一点的一种方式是，欲望根植于基因组之中，而基因组本身并不智能。但你却能够描述这种特性。你甚至不清楚自己是如何定义这种特性的，而且你还能将其构建到基因中。

Ilya Sutskever

本质上来说，或者我换个说法。想想基因组可用的工具，它就像在说：「好了，这里有一份构建大脑的配方。」你可以说：「这里有一份将多巴胺神经元连接到嗅觉感受器的配方。」如果这种气味是某种令人愉悦的气味，你就想吃它。

我能想象基因组会这样做。但我认为更难想象。很难想象基因组会告诉你，你应该关心你整个大脑，或者说你大脑的很大一部分，都在进行的某些复杂计算。这就是我的观点。我可以推测一下它是如何实现的。让我提出一个推测，然后解释为什么这个推测很可能是错误的。

所以大脑有不同的脑区。我们有大脑皮层，它包含了所有这些脑区。大脑皮层本身是均匀的，但脑区以及皮层中的神经元主要与其邻近的神经元进行交流。这就解释了为什么会有脑区。因为如果你想进行某种语音处理，所有负责语音处理的神经元都需要相互沟通。而由于神经元只能与其附近的神经元交流，所以大多数情况下，它们必须位于同一个脑区内。

每个人大脑中这些区域的位置基本相同。所以，或许进化在大脑中硬编码了一个特定的位置。它就像在说：「哦，当大脑的某个特定区域（比如某个神经元）的GPS坐标被激活时，你就应该关注这个区域。」这或许就是进化的运作方式，因为这符合进化的逻辑。

Dwarkesh Patel

是的，虽然也有一些例子，比如先天失明的人，他们大脑皮层的失明区域会被其他感官所取代。我不知道，但如果大脑皮层的不同区域被其他感官所取代，那些需要视觉信号的欲望或奖励功能是否会失效，我会感到惊讶。

例如，如果你失去了视力，你还能感受到你想让周围的人喜欢你等等这种感觉吗？通常情况下，这些感觉也会有视觉线索。

Ilya Sutskever

我完全同意。我认为这个理论还有更强有力的反驳论点。有些人童年时期切除了半个大脑，但他们仍然保留着所有的大脑区域。然而，这些区域却都以某种方式集中到了大脑的一侧半球，这表明大脑区域的位置并非固定不变，因此这个理论是不成立的。

如果这是真的就好了，可惜不是。所以我觉得这真是个谜。不过，这的确是个有趣的谜。事实是，进化不知怎么地赋予了我们非常可靠地关注社会事务的能力。即使是那些患有各种奇怪精神疾病、缺陷和情绪问题的人，也往往很关心这些。

SSI

Dwarkesh Patel

SSI有什么与众不同的计划？你们显然希望站在时代前沿。创办SSI的初衷，或许正是因为你认为自己掌握一种能够安全推进这项工作的方式，而其他公司没有。那么，这种不同究竟在哪里？

Ilya Sutskever

在我看来，我只是有一些值得探索的想法，想验证它们是否真正有效。就是这样。这是一场尝试。如果这些关于「理解与概括」的思路最终被证明是正确的，那我们就能有所收获。

我们正在调查、验证这些想法。我们是一家真正意义上的「研究型公司」。过去一年取得了不错的进展，但还需要继续推进。我认为这本质上就是一种尝试，一种让自己发出声音、参与其中的方式。

Dwarkesh Patel

你们的联合创始人兼前CEO最近去了Meta。有人认为，如果公司当时取得了很多突破，这种离开似乎不太可能发生。你怎么看？

Ilya Sutskever

我只想简单回顾一些可能被忽视的事实。当时我们正以320亿美元估值进行融资，其后Meta提出了收购，我拒绝了，但前联合创始人某种程度上同意了。结果是，他获得了大量短期流动资金，而且他是SSI唯一加入Meta的人。

Dwarkesh Patel

听起来SSI的计划，是希望在人类迈入超人类智能时代的关键节点处于前沿位置。你们对如何有效利用超人类智能有自己的思路，但其他公司也在尝试不同想法。SSI的独特之处是什么？

Ilya Sutskever

我们的主要特点在于技术路径。我们采用了一种我认为有价值且行之有效的方法，并正努力推进。

我觉得最终各种策略会趋于一致。随着AI变得足够强大，大家大概都会意识到应该采取怎样的路线。原则上，就是找到一种可靠的沟通方式，并确保第一个真正意义上的超级智能能够以协调、关怀、有益的方式行事——关心有感知能力的生命、关心人类，尊重民主理念，或多者兼具。

我认为这是所有公司都应该追求的目标，也是我们正在追求的目标。甚至如果其他公司现在还没意识到，我相信它们最终也会朝着同一方向前进。随着智能增强，世界将发生巨变，人们的行为方式也会随之彻底改变。

Dwarkesh Patel

你对这种系统的时间预测是什么？一种能像人类一样学习，并最终达到人类水平的系统。

Ilya Sutskever

大概5到20年。

Dwarkesh Patel

你认为未来几年会发生什么？如果其他公司继续沿用现有做法，最终会「停滞」？这里的「停滞」具体意味着什么？营收停留在几千亿美元？

Ilya Sutskever

停滞的情形可能是各家公司的状况会非常相似。我并不确定，但即使「停滞」，他们仍可能获得惊人的收入。也许利润不高，因为彼此需要努力差异化，但收入不会低。

Dwarkesh Patel

但你似乎暗示，一旦出现正确的方法，各家公司最终都会趋同。为什么这么认为？

Ilya Sutskever

我主要指战略协调上的趋同。技术路径最终可能也趋同，但我指的是战略层面：大家会逐渐清晰地意识到应该采取怎样的做法。

Dwarkesh Patel

现在许多公司采用不同思路，你期待他们继续创造收入，但达不到类人学习。未来或许只有少数公司找到正确方法，一旦发布，其他人就会明白应该怎么做？

Ilya Sutskever

确切的做法目前不明朗，但另一种可能性是：信息会被研究、被破解，人们会试图弄清其原理。不过，随着能力不断提升，我认为某些方面会发生根本性的变化，只是现在还无法具体描述。

Dwarkesh Patel

按理说，率先建立持续学习循环的公司会获得所有收益。为何这些收益会被广泛分享，而不是集中在头部企业？

Ilya Sutskever

如果回顾AI的历史模式，会发现通常是一家公司率先突破，随后其他公司迅速跟进，推出类似产品，在市场上竞争、压低价格。我认为未来也会如此。

此外，在理想情况下，你也可以将超级智能限定在非常具体的窄领域，使其既强大又专业化。市场中本来就偏好多样化、细分化。

因此，一家公司可能在某个复杂经济活动领域表现突出，而另一家公司擅长另一个领域，还有公司可能专门在诉讼方面极具优势。

Dwarkesh Patel

但这与类人学习的含义似乎矛盾。类人学习意味着能学任何事情。

Ilya Sutskever

确实可以。但你已经为特定领域投入大量计算、资源和经验，积累了深厚知识，达到了极高水准。别人可能会说：「我没必要重复你已经学过的一切。」

Dwarkesh Patel

要实现这种分化，前提是多家公司同时训练类人学习智能体，在不同分支上展开搜索。如果只有一家率先获得这样的学习器，它也可以让一个实例学习所有岗位。

Ilya Sutskever

这确实是一个合理的论点。但我的强烈直觉告诉我，事情不会这样发展。理论上似乎是这样，但实践中未必如此。这就是理论与现实不一致的典型例子。

Dwarkesh Patel

很多递归自我改进模型认为，服务器里会有上百万个「伊利亚」，不断探索不同想法，从而导致超级智能迅速出现。你对并行化的收益有什么直觉？复制「你」有什么意义？

Ilya Sutskever

我不确定。我倾向认为会出现收益递减，因为真正需要的是「思维方式不同的人」，而不是成千上万个思维方式相同的复制体。只复制我一个人，我不认为价值会提升多少。你需要的是多样化的思考方式。

多智能体

Dwarkesh Patel

为什么即使查看完全不同公司发布、用可能不重叠的数据集训练出来的模型，LLM之间的相似度仍然高得惊人？

Ilya Sutskever

也许这些数据集并不像表面上看起来那样完全不重叠。

Dwarkesh Patel

但从某种意义上说，即便单个人类的生产力远不如未来的AI，人类团队的多样性或许仍比AI团队更高。我们该如何在AI中实现这种意义上的「多样性」？

我认为仅仅提高温度只会让模型胡言乱语。我们真正需要的，是类似不同科学家拥有不同偏见、不同想法的那种结构性差异。那么，怎样才能在AI代理中产生这种多样性？

Ilya Sutskever

我认为缺乏多样性主要来自预训练。所有预训练模型最终都非常相似，因为它们都来自类似的数据。而差异更多出现在强化学习和后训练阶段，因为不同团队会采用不同的RL训练方法。

Dwarkesh Patel

我之前听你提过，自博弈也许是一种获取数据，或让智能体与同等智能体匹配以启动学习的方式。那么，我们应该如何理解那些当前还未公开、试图将自博弈应用到LLM生命周期学习中的提案？

Ilya Sutskever

我想强调两点。

第一，自博弈之所以有趣，是因为它提供了一种仅依靠计算而非数据来创建模型的方法。如果你认为数据最终是瓶颈，那能只靠算力推进，就非常值得关注。

第二，问题在于传统形式的自博弈——让不同个体彼此竞争——其实只能培养少数特定技能。它的适用范围过于狭窄，只对谈判、冲突处理、社交互动、策略制定之类的能力有帮助。如果你看重这些技能，自博弈当然有价值。

实际上，我认为自博弈已经找到了新的归宿，只是形式不同。例如辩论机制、证明者–验证者机制，它们都包含某种「由LLM担任裁判」的结构，裁判的目标是发现你的错误。虽然这未必是严格意义上的自博弈，但确实是一种相关的对抗式机制。

更一般地说，自博弈其实是主体之间更广泛竞争的一种特例。在竞争环境里，自然的反应就是追求差异化。

如果你把多个主体放在一起，让他们都尝试解决同一个问题，并观察彼此的做法，他们会产生这样的想法：「其他主体都在用这种方法；我是否有必要换一种完全不同的方式？」

因此，我认为类似的机制也能激励主体发展出多样化的方法。

研究品味

Dwarkesh Patel

最后一个问题：什么是「研究品味」？你被广泛认为是AI领域品味极高的研究者，曾参与过AlexNet、GPT-3等深刻影响历史的成果。你的研究品味是什么？你是如何产生那些想法的？

Ilya Sutskever

我可以分享一些自己的看法。不同研究者的方法各不相同，而对我而言，一个始终指引我的原则是：AI应当具有怎样的「美学特征」。

这意味着要思考人类本质，但要以一种正确的方式思考。我们很容易误解什么是「人类本质」，那么什么才是「正确理解」呢？

举几个例子。人工神经元的概念直接源自大脑，而且这是一个极好的想法。为什么？大脑有很多结构，比如褶皱，但那些可能并不关键；真正重要的是神经元数量庞大。

因此我们也需要大量神经元，需要某种局部学习规则去更新连接，因为大脑似乎也是这样运作的。

再比如分布式表征。大脑会根据经验改变自身，因此神经网络也应该从经验中学习。这不只是模拟，而是要追问：这些特征究竟是本质性的，还是偶然的？它们是否反映了「智能的根基」？

正是这种追问，在很大程度上指导了我的研究。

我倾向于从多个角度寻找「纯粹的美」——美、简洁、优雅，以及来自大脑的正确灵感。丑陋的东西没有容身之处。如果缺乏这些元素，我就不会感到踏实；这些元素越齐全，我越能建立自上而下的信念。

这种自上而下的信念，是当实验结果与你的直觉相矛盾时支撑你的力量。如果总是完全依赖数据，你可能会在正确的方向上因为一个未知漏洞而被绊倒，却不知道应该坚持还是放弃。

那么你如何判断？如何知道是继续调试，还是该换方向？这时候，自上而下的信念就变得至关重要。

它告诉你：「事情应该是这样的。这样的路径必须能奏效，我们必须坚持。」这种信念来自你对大脑的理解、对美和简洁的偏好、来自多方面的直觉与灵感。

它会在真正关键的时刻起作用。

源济 · 发表于 2025-11-28 06:04 PM

Ilya Sutskever – We're moving from the age of scaling to the age of research

Ilya & I discuss SSI’s strategy, the problems with pre-training, how to improve the generalization of AI models, and how to ensure AGI goes well.

		自动登录	找回密码
密码			注册

Ilya罕见发声：大模型「大力出奇迹」到头了

Ilya罕见发声：大模型「大力出奇迹」到头了

Jay 发自 凹非寺量子位 | 公众号 QbitAI

访谈全文

情绪和价值

我们在扩展什么？

为什么人类比模型更擅长概括

ASI

对齐

SSI

多智能体

研究品味

浏览过的版块

Jay 发自凹非寺
量子位 | 公众号 QbitAI