大模型盘点

源济 · 发表于 2024-10-8 07:48 PM

大模型盘点①｜MiniMax：做社区产品驱动的大模型公司

第一财经YiMagazine 2024年10月01日 22:02

记者：吴洋洋编辑：王杰夫

全球大模型已以短跑速度连续赛跑了19个月，目前我们正处在AI从深度学习向强化学习、从软件应用向硬件设备进化的新节点。在此，我们挑选来自基础模型、视频生成和人形机器人领域的代表公司案例，盘点中国人工智能进程。最后一篇还将关注全球AI人才，欢迎假期期间持续关注。

Key Points

除了模型参数量、数据量、计算量可以scale，模型支持的文本长度其实也可以scale。

只有能带来几倍效果提升的技术才值得投资。

AI内容社区很有可能成为一个现象级的产品。

社区是所有互联网产品里最难做的，它需要一步一步演化，不会一蹴而就。

我们开始投放的那一天，就是用户留存的飞轮可以转起来的时候。

8月31日，MiniMax发布了旗下首个文生视频模型abab-video-1，成为继快手、字节跳动、智谱等之后又一家拥有视频生成模型的中国人工智能公司。

该模型可一次性生成长度为6秒的视频。MiniMax在发布会现场展示了一段以「魔法硬币」为主题的视频，这段视频长达1分55秒，并且具有音效。MiniMax称，该视频完全由AI生成，未经修改，不过生成是多次分段完成的，音效则由MiniMax旗下的语音大模型完成。

至此，MiniMax拥有了从文本到语音、视频生成的模型布局。MiniMax创始人闫俊杰在发布会后接受包括「新皮层」在内的多家媒体采访中称，之后还将陆续推出「图生视频、文+图生成视频、可编辑的可控视频生成」等模型或功能。

7月初的世界人工智能大会（WAIC）上，闫俊杰就预告了这一新模型的发布计划。之所以现在才真正发布，闫俊杰称他们这两个月里一直在忙于解决视频生成的稳定性问题，因为与文本相比，视频天然地包含更多token，而如何更高效地处理长序列token是个挑战。他们发现解决长序列token问题的方法——Linear Attention（线性注意力），也能复用到文本模型中，使得文本模型拥有更长的记忆力，这种记忆力对于提升用户与AI互动时的黏性有帮助。

作为头部大模型厂商中少数坚持依靠产品和技术「两条腿」走路的公司，闫俊杰在abab-video-1发布后的媒体群访中首次集中回应了外界对于MiniMax「擅长产品，不擅长技术」「产品在海外比在国内更成功」「海外陪伴型明星产品Character.AI已加入Google旗下，星野怎么办」等争议，以及MiniMax如何在产品和技术之间分配资源、什么样的技术才值得投资、如何看待AI应用热衷「投流」等问题。

闫俊杰称，星野既不是一个类似ChatGPT的聊天机器人，也不是Character.AI那样的陪伴型产品，而是一个内容社区，差别是聊天机器人和陪伴型AI都仅限于用户与模型之间的互动，星野则希望用户不仅使用平台提供的AI工具创作内容，更能基于这些内容互动起来，从而形成类似于小红书、抖音、B站等社区的形态。

因此，相较于通过投流快速获得大量「没有忠诚度」的用户，MiniMax更愿意把钱花在通过技术创新提升产品的好用性，从而提升用户黏性上，而有黏性的产品被认为能够反过来驱动技术不断创新最终实现AGI。Linear Attention就这种技术与产品的相互促进逻辑的产物之一。根据闫俊杰在发布会上提供的数据，除了带来更强的记忆力，Linear Attention还能大幅降低模型的计算时间，因为从用户体验角度——快某种程度上就是好。

以下是MiniMax创始人闫俊杰（花名IO）、MiniMax国际业务总经理盛静远、MiniMax技术总监韩景涛与包括「新皮层」在内的媒体交流记录，为方便阅读部分内容经编辑整理。

只有能带来几倍效果提升的技术才值得投资

Q：MiniMax为视频生成模型规划的商业变现路径是什么？最近《黑神话·悟空》很火，游戏会是一个场景吗？

闫俊杰：视频方面我们这次确实取得很大进展，我们内部评测，包括外部也跑一些分，应该比国外的Runway有更好的效果。不过今天发的只是我们的第一版，很快还会有更新的版本。我们的策略是到了一个更加满意的状态之后，再考虑一些商业化。

我们整个公司的商业化基本上分成两种形式，一个是开放平台，现在已经有2000多家客户，包括很多知名互联网公司，也包括传统企业。第二点，我们的产品里面也有广告机制，广告本来就可以做商业化变现。我觉得目前阶段最重要的还不是商业化，而是把技术真正做到广泛可用的程度。

关于视频生成跟游戏的关系，正好3天前Google DeepMind发了论文。游戏引擎做场景渲染原本需要每个东西都提前建模，而DeepMind的AI游戏引擎可以基于用户的实时状态通过实时生成视频的方式建模，这个效率就非常高，互动性也变得很强。当然《黑神话悟空》还是传统的建模渲染方式，但基于视频生成的方式至少提供一种可能性，并且原则上来说上限会更高，基于渲染的方式，进步速度已经很慢了。长期看，进步越快的东西越好。

Q：今年视频生成赛道非常激烈，MiniMax为什么要做视频生成？这对你们整个布局有必要性吗？

闫俊杰：我们一直以来的目标就是要做多模态的输出，这也是没有哪家大模型公司声音模型做得很好的时候，我们的声音模型做到最好，今天我们把视频也做得非常好。本质原因是一个基本的道理，我们每天看的大部分内容都不是文字，而是一些多模态的东西。你打开小红书都是图文，打开抖音都是视频，甚至你打开拼多多买东西，大部分时候也是图片，字在里面占的比例并没有很高。

为了让产品有非常高的用户覆盖度、使用深度，唯一的办法是能够输出多模态内容，而不是只输出单纯的基于文字的内容，这是一个非常核心的判断。只是我们先做出来的是文字，又做出来声音，其实很早就做出来了图片，只是现在技术变得更强，就把视频也做出来了。这个路线是一以贯之的，一定要做多模态。

Q：后续迭代是往哪个方向？

闫俊杰：方向包括数据、算法本身，以及更加方便用户使用的细节，比如现在只提供了文生视频，那图生视频、文+图生成视频、可编辑的可控视频生成……这些都会陆续出来。

Q：MiniMax生成视频的算法与同行有什么不同？

闫俊杰：我们推出比可灵（快手推出的视频模型）要晚一两个月，核心原因是我们在解决一个更难的技术问题，即如何保持稳定性。这件事情为什么这么难？在训练视频生成能力的过程中，需要先把视频变成一些token，这些token会非常长，token越长复杂度就越高，而我们的算法的特点能把复杂度往下降低一些，让压缩率变得更高。这个事花了我们很多精力，所以晚了一两个月。不管是视频、文本、声音等模型，核心的东西都不是说找一个算法提升5%、10%的效果就够了，而是要让效果提升几倍。如果能提升几倍就一定要做出来，如果只提升5%就不太值得做，这是我们做研发的思路。

Q：MiniMax这次视频模型训练中选择Linear Attention（线性注意力）方案的决策是怎么作出来的？这次预判和实践对MiniMax发展来说有哪些意义？

韩景涛：我们还是比较坚信Scaling Law（规模定律），scale可以理解为一种多个维度的缩放，很多人最简单地会觉得是参数量越来越大是一种scale。其实还有一个隐藏的、被重视不那么多的scale，就是context length（文本长度），也就是说除了模型参数量、数据量、计算量可以scale，模型支持的文本长度其实也可以scale。传统的Transformer相当于一个n次方复杂度的self attention（自注意力）的计算，如果一定要是n次方的话，模型支持的文本长度永远不可能scale得特别长，8k或者10k token的上文，大概就是这一代硬件的技术瓶颈了。

我们想把自注意力做得更大，不管是原理还是实际应用上，就像跟星野这样的智能体聊天，我们肯定不希望星野的NPC只能记住最近8000字的内容，这对用户体验肯定损伤很大，如果能scale到8万字、80万字、800万字……肯定能做出更不一样的产品。

为此我们探索了一段时间，因为scale的维度很多，我们在不同方向还要做不同的组合，有时候全部做可能最后效果不一定会特别好，必须有研究顺序和取舍。探索中我们发现有一个长的记忆、长的context length（文本长度）是非常重要的，也是非常实用的。我们就从这两点出发开始探索，如果一直用之前的旧算法，𝒪(n^2)一定会限制我的scale（注：传统Transformer中注意力机制的计算复杂度与输入长度呈平方关系）。那个时候我们就想探索得极端一点，能不能找一个𝒪(n)级别的算法（指线性级别，表示算法的执行时间随着输入数据规模的增加而线性增加），因为𝒪(n)的scale性天然很好，计算复杂度非常低，尤其是文本越长优势越明显。

从这个角度看，Linear Attention（线性注意力）就是个很有效的方法。Linear Attention在学术界很早就有了，至少三四年前就有一些不是很成熟的工作。只是有些人可能相信它，有些人不是那么相信它。我们一开始遇到很多工程上的瓶颈，但是研究到现在我们觉得对Linear Attention的驾驭到了一个比较好的、可以用它的状态了。

闫俊杰：总结起来，核心还是快。不管是做MoE（混合专家模型）还是Linear Attention，或者其他的探索，本质上还是要更快，这是我们觉得本质的东西。快意味着同样的算力可以让模型变得更好，这个是我们做研发最底层的思路，除了Linear Attention、MoE，可能还有一些其他比较有价值的事，我们也在探索。

Q：做视频模型的挑战和难点是什么？

闫俊杰：首先这件事还挺难的，如果不难，不会全球只有两三家公司能做得很好。难点在于做出有些独特的东西，有些可以复用的东西。

独特的东西在于视频的复杂度比做文本更难，因为视频的token量天然更大，比如一个视频就是千万token的输入和输出。其次，视频量很大，比如看一个5秒的视频，这个5秒的视频就有几兆，但是5秒看的文字只有100个字，可能都不到1k，这是几千倍的存储差距。里面的挑战在于，之前基于文本建的底层基础设施怎么来处理视频数据，怎么清洗视频数据，怎么来标注，对视频都不太适用，意味着基础设施也需要升级。

主要是这两个挑战，还有的话就是耐心，做文字有很多开源的东西，如果基于开源来做自己的研发会更快，做视频开源的东西没那么多，做出来其实很多东西越来越需要从头做，需要付出的耐心也更大。

Q：MiniMax的声音大模型和视频大模型如何解决数据问题？

闫俊杰：数据方面，中国还是有比较好的措施，在国家层面还是有很多政策出来，在上海就有一个公司可以以政府的组织形式有很多非常高质量的数据，并且可以把数据开放给技术公司，这些数据完全没有版权问题，对尤其像我们这样的创业公司帮助非常大。

我们自己也会采购第三方数据，也有一点不知道该怎么判断，海外很多人质疑OpenAI是不是使用了其他数据，这个似乎是没有一个明确定义的模糊地带。对我们来说，尽可能地用比较符合版权的数据，我们只能尽可能往这个方向努力。

Q：你演讲的时候说自己花了两年时间才意识到技术是最核心的要素，其实MiniMax成立也不久，公司最开始成立的时候你最关心的是什么？什么样的原因让你意识到技术才是最重要的？

闫俊杰：我们成立了两年多，应该不是说我花两年才意识到技术的重要，而是说一直都觉得技术重要，但是觉得它重要，跟说100%地认为它重要，这个其实需要一个过程。做技术是一件非常奢侈的事，这件事甚至只有创业的时候才会理解，因为技术具有不可预测性，做技术可能会失败；其次，做技术的研发投入很大，如果看一眼每个月的账单我还是会非常心疼的。技术研发是很奢侈的一件事，当一个东西很奢侈的时候，很多时候就会想要不要走点捷径？比如说不做技术了，可不可以先把产品提升好或者是怎么样？

做技术还有一个比较容易犯的错误，就好比一个东西要试验三次才能成功，第三次真的试验成功的时候，又在想前面两次是不是可以不用做。比如说你吃包子吃三个会吃饱，就会想是不是前两个不用吃也是一样的。有时候就会想要不要走点捷径，我们的实践经验就证明，走捷径的时候就会被打脸，这个事已经发生好多次了，我猜可能已经超过十次了。我说的这些是负反馈。

很多时候也有正反馈，当你真的把一些技术突破之后，又能非常显著地感受到用户或者客户对你的认可。不管正反馈还是负反馈，最终发现都是技术带来的。我还是比较庆幸自己一直是一个做技术的人。

Q：今年行业里面出现了很多「期货」，你怎么理解现在行业技术进步的节奏？

闫俊杰：这点我自己还是很坚定的，虽然我们今天才更新视频模型，实际上两个月前我就知道今天可以更新视频模型，那个时候的实验结果已经能够预测出来，在今天我确实能够做出来。语言模型也是一样的。

行业核心变革可能不是GPT-4或者GPT-4o或者GPT-4o mini这种东西，也不是Claude3或者Claude3.5 sonnet，也不是我们之前做了一个MoE的什么模型，这里面真正重要的事情是，现在所有模型错误率都是20%的量级，都有两位数的错误率。真正的变革是在什么时间点有一个模型可以把错误率降低到个位数，这会是一个非常本质的变化。

为什么是非常本质的变化？首先是数量级的提升，其次是说这个变化确实可以让很多复杂任务从不可做变成可做，因为复杂任务需要多步规划，多步就需要好多步「乘」的关系，错误率高的模型就没办法乘起来。这就是为什么现在没有agent可以应用的原因，因为GPT-4这样的模型没法支持非常灵活的agent。不是因为agent的框架写得不够好，而是因为模型本身不够好，这是一个最根本的原因，也是为什么我们自己之前尝试过agent跑不通，GPT-4出了GPT Store也跑不通，本质原因不是因为产品做得不好，就是因为底层模型不够好。什么时间点会出来一个错误率能够降低10倍的模型？现在显然是没有的，至少没有公开。

但是可以看到现在每家公司都有了算力，且算力比GPT-4刚出来的时候多了有可能不止4倍。算法很显然也在进步，OpenAI 2023年只能做出来GPT-4，现在能做GPT-4o，虽然性能差不多，但速度快了可能10倍，意味着算法也进步了。计算量多了不止10倍，算法也快了10倍的时候，没有道理训练不出来一个更好的模型。

我的判断是，如果Scaling Law是对的话，这个模型一定会出现，标志就是错误率变成个位数，只是不知道什么原因还没有人把它真正地发布出来。

Q：你眼中的AGI是什么样的？或者说你是怎么确定AGI信仰的？

闫俊杰：我们认为的AGI可能不是一个很高大上的东西，而是能够变成每个人生活中的一部分，比如我们看抖音或者微信公众号的时候，不会觉得那是基于推荐算法做的内容分发平台，大家就只觉得是抖音、微信。我的意思是这些产品背后也是硬核的算法，但是这些产品本身已经变成大家生活中的一部分，我觉得对AGI也是一样的。当大家觉得一个东西不是AI的时候，当它变成大家每天都在用的一部分的时候，就跟用手机一样，我觉得AGI就实现了。这需要很长时间，但是我觉得可以一步步努力。

「社区是所有互联网产品里最难做的产品」

Q：如何看待Character.AI被收购，以及陪伴类AI的发展前景？

闫俊杰：解释一件事，我们的产品星野的底层设计其实不是陪用户聊天，而是一个内容社区。里面可以有一些用户创建的一些角色，包括现在我们也提供了更复杂的工具，让用户可以在里面创建故事、创作世界观；同时另外一些用户也可以根据创造的世界观进行互动，很类似小说这样的交互体验。核心是内容社区，而不是陪一个人来聊天，这事有fundamental（本质上的）不同。对用户来说，我们不是把一个模型给到用户，比如说在ChatGPT里面，你用ChatGPT和另外一个人用ChatGPT，如果你们输入相同，输出应该是一样的，或者应该是近似一样的。这个产品体验主要是来自模型。

星野用户界面。

我们在星野这个产品里希望做到的是个性化，并且很多输入来自用户。比如在星野里有很多其他用户的创作，你在这个产品得到的体验不完全来自模型，也来自另外一些用户的创作，这个是我们认为的一个比较核心的区别。中国公司还是比较容易能做好产品的。

关于Character AI被收购，这是一个比较好的结局，似乎每个人都在里面得到了好处。

Q：星野如果是个社区，现有社区产品中哪个跟它比较接近？星野和海螺的用户画像分别是什么样的？

闫俊杰：星野是一个很独特的内容平台，是完全基于AI的一套内容社区，这个事在全球范围都是挺独特的。一个客观情况是社区产品会同时存在多个，抖音、小红书、B站、知乎都分别是社区，至少在AI内容社区这件事上，星野还是做得比较靠前。里面的AI本质上是一种新的内容交互形态。星野的用户画像以二三线城市为主，年龄在17至25岁之间。海螺的用户画像更泛一些，海螺本来就是工具型的产品。

Q：但不少用户还是会把星野或者Talkie（星野海外版）当成陪伴型产品，而且他们觉得跟虚拟角色很难进行深度聊天，用户就会流失，你们怎么解决这个问题？

闫俊杰：现在确实有这样的问题，本质上就是模型不够好，当前模型没有很长的记忆，理解不了特别复杂的指令就会这样。这也是为什么我们要让我们的模型变得更强，理解能力变得更强，能够处理无限长的输入跟输出，有更多的模态，这里面也包括更多的创作者激励。社区是所有互联网产品里最难做的，它需要一步一步演化，不会一蹴而就。10年前的B站跟现在的B站显然不太一样，10年前的B站还是金坷拉那些东西，但现在的B站有很多AI的内容，有非常多的知识，各种各样的东西，其实就是这么一个演化的过程。

Q：最近快手也推出了「飞船」，产品风格有点类似于星野，星野的壁垒是什么？

闫俊杰：类似产品除了快手有，字节也有。这整体还是一件好事，比如中国有些发展很好的行业，像电动车、手机、移动互联网，都有好几家公司进行了非常激烈的长期竞争，最终使得中国的产品全球领先。历史上很多行业都是这样的，既然历史是这样，大模型又有可能产生很大的社会价值，那么确实也应该有很多的竞争。这个事就是发展的客观规律，作为一家小的创业公司，如果我们在竞争中打不赢，那我们就应该被淘汰，就应该关掉，其实也没有其他的选择。

这一定程度上让我们开始意识到，有很多大厂竞争对手，好处是可以让我们很快地看清一些非常底层的东西。假设没有这些大厂的竞争，可能你不会知道买量是不是重要。但当开始意识到那些比你大好多倍的公司都开始跟你竞争的时候，你就意识到买量是没用的，因为这个能力大厂比你强百倍千倍，我们能做的就是把我们觉得有可能变强的事无限地放大，有两点：一是技术如何提升，二是如何跟用户更好地共创。只有这两点都需要一些非常关键的判断和长期的积累。

Q：这两样东西目前MiniMax有吗？

闫俊杰：我们现在还很小，我觉得还需要足够长的时间。像电动车，电动车从不被看好的「造车三傻」到后面的状态也是过了好几年，像理想第一款车就失败了，第二款车理想ONE才成功，也是经历了四五年，还是可以有一些耐心。

Q：你们把80%的算力和资源放到了模型上，未来大模型的研发还会保持这样的水准吗？大模型和产品之间的资源分配怎么做？

闫俊杰：这是一个很难的事，对创业来说一块钱要分成几瓣来花是非常难的。对技术来说，包括我从读书的时候，到工作，到现在创业，对技术的理解慢慢变得非常简单。第一性原理是这样的，技术——特别是做很大研发投入的技术，追求的东西不应该是10%的提升，如果一个技术的提升只有10%那这个技术不应该做。原因是你不做也会有人开源出来，或者也会有其他人做，其实根本不需要自己来研发。

一家像我们这样的创业公司，真正应该花钱做的研发是那种能够带来几倍变化的技术，这种东西很多时候如果我们自己不做，外面也没有，对我们满足用户的需求又很重要，但是又没有人做，我们只能自己来做，这样的东西才是比较核心的东西。不管是我们现在还是再往后看，我们在什么样的技术方向上最愿意花钱，核心判断是我们认为这个方向做出来能不能带来几倍的变化，如果能的话不管多难都要做出来。如果不满足这个标准，不管多简单我们都不应该做。

Q：每家大模型公司都说自己的技术很厉害，外界该如何判断呢？

闫俊杰：技术好坏怎么判断这个事很难，不光对媒体朋友难，对我们自己也难。举例子，我们做出来一个模型，或者做一个技术改进，怎么知道这个改进是不是对的？怎么来评估？或者把大模型当作一个人，你怎么判断这个人是不是好人？其实也很难判断。我觉得可能不是大家的知识不够，其实本来就难。

我们也经历过，当我们的评价标准不够好的时候，模型迭代有时候也会误入歧途，你的迭代会优化你认为对的指标，如果指标本身不对，迭代可能就错了，我们经历过很多这样的事。

最终怎么看一个模型好不好？我只能说我们目前用的方式，有可能也不是对的，至少我认为比较可能的方式是这样的，我们的开放平台有3万多个企业客户和开发者，里面有些客户对他们的场景非常看重，要求我们一定要保证他们的产品的效果，我基于这样的场景构建了一个测试集，是真实使用的测试集，并且是来自很多家的客户的真实使用。这个测试集我觉得还是比较客观的，原因是这个测试集上所有的国产模型都比GPT-4差得很多。

很多大模型公司的排行榜上GPT-4基本上都要排到中游去了，但是在我们的排行榜上GPT-4o还是排在最靠前。包括我们的模型在内，所有的模型都跟GPT-4有本质上的差距，而且越难的问题差距越大，这个是我们的评估方式。至少按照这个评估方式来看，我觉得我们的提升空间还是挺大的。

这个事每个公司有自己不同的思考。核心就是看你要什么，如果认为Query（调用量）重要就应该无限地「投流」；如果认为Query的量跟模型的效果是对数的关系，不是线性关系，那投流的价值就没那么大；如果认为商业化重要，就应该只要产品ROI能转正就无限地投流。这里面的核心不是投流本身，核心是一家公司要的那个东西到底是什么，这个东西我觉得不同的公司有不同的判断。

「我们开始投放的那一天，就是用户留存的飞轮可以转起来的时候」

Q：你们怎么看AI出海这个市场？

闫俊杰：其实我们国内用户量不比海外小，但是我不太知道为什么大家都只觉得我们出海做得好。还有就是其实我们的技术非常领先，但大家总觉得我们产品做得好，我不太理解为什么会这样。

盛静远：所有大模型公司里面唯一有非常大国际出海业务的其实就只有我们家，这里面有一些运气，更多的是我们在做这个产品之前有非常深的思考。其实任何伟大的C端产品都要基于对人性的深入思考。

我们很早就做了一款产品GLOW，是最早的基于生成式AI的社区，这个产品问世比Character AI还要早，包括今天展示出来的闫总2021年12月在白板上写的「闲聊」，还写了《底特律：变人》，以及AI在高容错率的情况下可以做到什么，一步一步把产品变成了全球人民喜闻乐见的东西，是一个我们在创业之初就进行了深度设想的产品。这个产品我们只做了英语版（海外），在国内是星野社区。两个产品一开始是一套班子，放到海外之后发现全球各地二三十个国家不同语言的人都开始玩我们的产品。

闫俊杰展示他2021年12月开始创业时在白板上写下的计划。

早期Character.AI比较有名，它的核心团队被Google收走之后，我们成了赛道的扛大旗者，而且我们在做的事情是不断地破圈。就像闫俊杰总在说的，我们做的不是一个陪聊，也不是一个AI的情感陪伴，而是新一代的内容生成平台。就像上一代伟大的toC产品，无论是短视频，还是再之前的产品，在技术创新的关口都会出现一些新的突破，新的搅局者可以入局。

短视频是因为手机有了摄像头，存储技术的突破让每个人都变成了视频创作者。今天有了AI，我没学过音乐都可以变成一个音乐创作者，我不会做皮克斯的动画，但我今天完全可以写一句话然后做出皮克斯的动画。我们的多模态AI能让全世界的所有人都变成更强更厉害的创作者，释放他们的创作能力，之后在线上平台把他们创作的内容，无论是一个可以交互的智能体，还是一段很酷的视频都放在Talkie或者星野的平台上，甚至是之后更多的产品。所以它很有可能成为一个很大的现象级的产品。

Q：MiniMax在海外市场具体是如何布局的？整体商业化表现如何？

闫俊杰：去年中国这些模型在海外是完全没有竞争力的，接下来中国出现了百模大战，包括价格战，这些东西客观来说还是带来了很多变化。比如，我们非常惊人地发现大模型打响价格战之后，有很多非常传统的企业开始愿意使用大模型，它们的领导者觉得反正成本低，出错也不要紧，出错了多调用一次就好了。客观来说，这非常大地提高了模型的调用量。

正是因为竞争这么激烈，推动大家必须得把模型做好，到一定阶段之后，就会发现模型在海外也有竞争力了，比如在东南亚或者其他地方，之前大家觉得必须得用GPT，但是GPT在语言上的支持其实也不够好，国内模型正是经过这么激烈的竞争，push大家一定要往前赶，至少目前已经可以赶到至少在非英语国家的语种上，能够达到跟GPT不相上下的水平，就像在中文上很多时候也能够到不错的水平是一个道理。

对我们来说，竞争无法避免，既然无法避免就努力做到最好，我们看到乐观的一面，国内大模型的使用量确实在显著增长，并且中国模型在海外确实越来越有竞争力，这我觉得是两个积极的变化。

Q：MiniMax目前在国内做商业化落地的难点有哪些？你认为是什么原因导致的？

闫俊杰：当一个产品没人用或者不赚钱的时候，肯定是不能怪用户的，大部分时候只能怪自己的技术做得不够好，或者产品做得不够好。前段时间还有个新闻特别火，虎嗅讲互联网30年收获那个对我还是挺有启发的。比如QQ在2000年的时候也不知道该怎么赚钱，尝试无数的商业化变现方案都失败了。但是最终找到了移动增值业务，慢慢又找到了游戏，才开始变得很大，商业化都会经历这么一个过程。

商业化对整个行业都是考验，如果能够通过就能够出来，如果通不过确实应该关掉，这个事就应该客观面对，肯定不能怪用户，也不能怪生态，只能怪自己做得不够好，至少我们目前是在努力的，这是我唯一可以做的事。

Q：toB业务的ROI问题怎么解决？

盛静远：我分国内国外来讲。我自己的背景以前是投资人，在硅谷十几年，在中国也是投toB行业，其实不同的行业长成今天的状态有它的底层规律，toB行业真正要赚钱是要能够成为行业标准，近乎垄断。我不想用这个词，但是偏垄断性质的产品才能收到大家的问询，就像微软这样的软件，没有其他替代，所有大企业都愿意为此付费。在国内更加卷的竞争市场中，toB业务很多都变成了项目制，大模型如果靠纯技术输出，为每家企业进行定制，这个商业模式就转不过来。我从投资人的角度可以很明确地说，它变成了一个不成立的商业模式。

国内市场的to B或者工具类产品，我们现在的思考是把自己偏工具类的产品，比如海螺，打磨出新的功能直到有用户黏性，让它也有市场区分度，具体有些功能我先不透露。我们所有产品都会结合技术能力推出一些能增强用户黏性的功能，黏性建立起来后，我们才会考虑ROI和retention（用户留存），这个飞轮转起来了，我们再去投放，而不是像很多友商，把非常大的资源和金钱真金白银砸进去。普通消费者对今天的产品形态是没有任何忠诚度可言的。它一收费我就可以换到另外一个产品，这个商业模式是不成立的。这个ROI是会有转起来的一天，但不是今天的产品形态。大家可以期待一下在国内的工具市场我们开始投放的那一天，那可能就是我们觉得这个产品的retention可以转起来的时候。

海外市场不太一样。讲一个小例子，我们的声音产品不是一个特别大、特别fancy，是个跟视频产品没法比的东西，但它的商业化前景巨大。只有十几个波兰人做出了ElevenLabs这个产品，非常多的游戏公司、广告公司、有声书、时代杂志基本上就是用它小小的模型把文本变成了英语，它的Text2Speech技术做得比较细腻之后，就有非常多的企业用户愿意付费，为之买单。

我们声音产品的能力绝对是在国际第一梯队。海外用户付费习惯很好，用户都愿意每个月花5美元或者10美元进行订阅，这个习惯很普遍，在我们的产品够好的情况下，就可以在海外进行这种类型的推广。对我们来讲，现在技术完全到位了，更多是公司的精力和资源分配，以及怎么把东西变现的问题。海外市场有一套自己的打法，会相对比较直接，变现也更快。

Q：投资人对MiniMax有什么期待？他们更在乎商业化进展还是技术方面的进展？

闫俊杰：实际的情况是投资人不是一个人，投资人是一个组织，一个组织就意味着大部分时候没有一个统一的观点。我们还是一家很小的公司，公司有各种各样的数据，尽管我认为已经提升了很多，在某些领域里面有些优势，但相比这些大公司非常成熟的业务来说，占比还是非常小的，甚至可以说不值一提。这里面的核心也不是投资人们怎么看，核心还是我们自己怎么样做得更好。

Q：之前MiniMax拿美元基金的钱比较多，现在美元基金在萎缩，如果融资困难的话，你会做哪些应对？

盛静远：整体来讲一家公司真正的价值在于自身创造的商业价值，虽然我们是一家大模型公司，无论从花钱的角度、训练的角度，闫总的宗旨一直是一枚硬币掰成三枚花，今天讲的「快就是好」，也是在同等算力的条件下，尽可能训练更多的轮次，训练更大的数据，就是通过我们自己去做一些科研上比较有挑战的事。铺张浪费型的训练方式，我们没法照搬。

作为所有中国大模型公司里面少数几个能讲商业化、能讲变现、能讲产品跟模型一起驱动，甚至很有可能在比较短的时间内实现自负盈亏以及盈利的公司，这样做是最可持续的方式，而不是去想还有哪些钱可以来投我们。我们不是一家只做产品的公司，产品是技术突破的体现，产品能够通过商业化反哺后续的技术投入，这是公司真正转起来的标志。可能我们现在是正在半山腰的状态，如果做得比较成功，很快就能达到一个正向循环。

-END-

源济 · 发表于 2024-10-8 07:52 PM

大模型盘点② ｜Haiper ：视频生成还在「GPT-2」阶段

第一财经YiMagazine 2024年10月02日 22:57

记者：何昕晔邢梦妮

编辑：吴洋洋

Key Points

视频生成的「最佳时长」仍是个待探索的问题，并非越长越好；

市场似乎存在时长派和良率派两个派别，如果说Sora是时长派的代表，位于伦敦的初创公司Haiper就是良率派；

视频生成目前只相当于语言模型的GPT-2阶段——能够生成像自然语言、视频的内容，但「内容是否有意义」的问题尚未解决；

在成为GenAI时代的TikTok之前，Haiper试图先成为GenAI时代的小红书。

视频生成的「ChatGPT时刻」究竟有没有到来？

今年2月Sora发布时，不少人认为这个时刻到来了。OpenAI使用基于Transformer的扩散模型（Diffusion Model），使得Sora的生成长度可达1分钟，当时Pika的生成时长仅为3秒，Runway也只能生成18秒的视频。而且，Sora生成的视频比Runway等模型生成的「动」得更多，看起来更像真正的运动，而非Gif图片。不过，直到现在，Sora的所有发布也只是展示（Demo），仅面向少数人开放测试，而没有像ChatGPT那样把功能开放给所有人体验。

多伦多视频制作团队Shy Kids的后期制作成员Patrick Cederberg在试用后称，Sora生成的300个视频中，大约只有1个是可用的，这意味着Sora的「抽卡率」（即「良率」）不足。

如果视频生成市场上存在着时长派和良率派两个派别，而Sora是时长派的代表，位于伦敦的初创公司Haiper就是良率派。Haiper创始人缪亦舒对「新皮层」称，Haiper的视频模型目前只能生成8秒的视频，但「Haiper抽卡率相当高，大约每2个视频中就有1个被用户下载使用了」。

在缪亦舒看来，之所以更追求良率而非时长，是因为用户并不期待超长视频，视频生成的「最佳时长」仍在探索中。而目前4秒的生成长度可以为用户做的事情已经很多了，比如作为广告视频或用来讲个小故事。

不少人对于视频生成的期待是出现GenAI时代的TikTok，区别是视频不再来自相机拍摄，而是来自AI生成。缪亦舒也相信这样的平台将会出现，不过他认为目前的模型即使解决了良率问题，仍不足以解决story telling的问题，高质量创作仍然是最难的。目前来看，这项工作仍然需要人类的介入才能完成。因此整体而言，视频生成目前只相当于语言模型的GPT-2阶段——能够生成像自然语言、视频的内容，但「内容是否有意义」的问题尚未解决。

Haiper正在筹建一个社区，让专业人士和小白可以交流视频生成经验。用缪亦舒的话说，这个社区更像小红书，而不是TikTok，对于视频生成来说，前者更像是一个交流视频生成经验的学习社区，后者则是一个AI视频的成品交易平台。在成为GenAI时代的TikTok之前，Haiper试图先成为GenAI时代的小红书。

以下是新皮层与缪亦舒的对话，他谈到了Haiper和Sora在受众定位上的区别，谈到了Haiper目前的产品定位，以及当前视频模型竞争中各家公司的竞争要素。此外，他还谈到了在DeepMind工作期间的收获，以及他对DeepMind为什么会被OpenAI后来居上的理解。

Haiper CEO，缪亦舒。

相较于时长，更重要的是视频生成的成功率

新皮层：作为一家视频生成公司，Haiper的技术路线更接近于Runway、Pika还是Sora？

缪亦舒：我不确定其他公司采用的具体技术，但可以肯定的是，不同公司的视频生成模型在架构细节上会有很大不同。视频生成是一个复杂的工程系统，从数据层面到模型架构设计，再到最终的输出选择，与很多因素相关。

我们使用的是Latent Diffusion Model（潜在扩散模型）+Transformer。目前还不能简单地说使用某个架构就能形成技术优势。这是一个需要不断研究和混合的过程。

因为AI产品的UI/UX设计接近，我们的产品在早期可能与Runway和Pika看起来相似，但使用后会发现有很大的不同。

新皮层：Sora发布之后，国内视频生成公司的方向似乎都转变为要成为下一个Sora。在硅谷或伦敦市场，视频生成领域是否还有不同的技术路线尝试？

缪亦舒：我认为未来一段时间内，视频生成领域不会出现单一主流技术，可能会有类似语言模型的通用架构，但内容的多样性会带来视频生成模型的多元化，像YouTube、Bilibili和Netflix等平台在内容层面就具有明显的差异。

技术上，目前视频生成行业还在非常早期的阶段，并没有形成技术共识，需要不断推动研究。比如我们可能提出了一个视频架构，但之后在这个架构上扩展遇到了瓶颈，就会迫使我们提出新的网络架构。这个过程会因为新的算法而变得复杂，之前的训练可能就会无效。

新皮层：Haiper的目标不是成为下一个Sora吗？

缪亦舒：在我看来，与其说Sora是一个视频产品，不如说它是OpenAI在追求AGI（通用人工智能）路线上的一个重要节点。而这个项目最终要变成成熟的产品，距离普通用户仍然有距离。

对于初创公司来说，我们需要比大公司更接近用户，考虑他们为何要生成视频以及视频的用途。用户需求的不同会导致我们采用的技术路线不同。我们或许可以走把模型不断滚大的路线，但更难的是在训练过程中考虑用户使用速率和模型迭代效率。

挑选出一个优秀的demo视频相对容易，但要达到产品级别，确保用户满意度，这完全是另一回事。真正将模型商业化，并将其部署到云上供所有用户使用，这需要经过市场的验证。

新皮层：在当前的视频模型竞争中，各家公司的竞争要素是什么？是时长、清晰度、连贯性、稳定性，还是与用户指令的符合度？

缪亦舒：这些竞争要素都是重要的，但会有侧重点。专业用户可能更看重高清和时长，而普通用户可能更看重语言理解、连贯性和内容趣味性。当这些要素汇聚到产品中时，服务的用户类型不同，就需要产品有所取舍。

新皮层：目前，Haiper最长能生成8秒，与Sora相比在视频长度上还有差距？

缪亦舒：在技术上，我们已经实现了不限时长的视频生成，但还没准备好推向市场。其实一味地拉长视频的长度不难，但随着生成长度增加，视频内容的质量会下降。（注：7月17日，Haiper发布其视频生成模型的1.5版本，可生成视频时长从4秒增加到8秒。此外，新模型中加入了分辨率提升器（upscaler），可以将低质量视频提升至1080p分辨率，改善画质和细节。同时，模型将新增图像生成功能，在用户生成视频前先检查图像效果，提高生成的成功率）

新皮层：时长在目前的视频生成的竞争中意味着什么？

缪亦舒：在视频生成领域，目前已经落地的产品通常不支持生成过长的视频，而支持生成长视频的产品尚未达到落地标准。

我的观点是，初创公司不应该一开始就追求过大的模型和过长的时长，这可能会背离应用落地的目标。除了技术方面的原因，我认为用户实际上并不期待超长视频。不考虑视频质量和用户体验，单纯讨论模型能生成多少秒的视频是没有意义的。

之前有报道提到，与Sora合作的工作室最终发布的视频是经过后期编辑的结果。针对某一个镜头，Sora生成的300个视频中只有1个是可用的。这样的成功率对于产品级的应用来说远远不够，因为普通用户不可能等待生成300个视频然后选一个使用。所以我认为，Sora面向的其实是专业用户，但我们的策略不同，我们的目标是提供给普通用户使用。

对于面向C端的产品，在早期追求视频时长并不是一个明智的选择，追求生成长时间视频意味着需要更大的模型，这会导致用户的等待时间更长，生成错误视频的概率也会增加。

我们希望让普通用户在短时间内获得满意的素材，降低用户尝试使用的成本，目前优化的方向包括语言理解、创造性风格组合等，但最重要的还是成功率。高成功率是我们产品的一个重要优势，它意味着用户能够更快地得到满意的视频结果，减少等待和筛选的时间。

新皮层：成功率具体是指什么？

缪亦舒：成功率在用户中间也被称为「抽卡率」，是指连续生成的多个视频中可用的数量。例如，如果我们连续生成10个视频，其中有一半是可用的，成功率（抽卡率）就是50%。目前，根据用户的下载率来推断的话，Haiper的成功率相当高，大约每2个视频中就有1个被用户下载使用了。

即使AI可以帮用户生成视频了，story telling的工作仍然需要人做

新皮层：Haiper目前的产品定位是做工具，还是构建社区，或者是技术攻坚实现AGI？

缪亦舒：我们目前是在构建社区的状态，实现AGI是我们的长期使命。在还没有想清楚视频生成AGI的具体形态前，讨论AGI还太远。我们做AI的最终目标不是为了AI本身，而是在实现AGI的道路上找到自己的路径，这是我们的长远方向。但我们不会放弃产品落地，这有助于我们与用户交互，获得来自现实世界的反馈，而不是仅在技术层面自娱自乐。

我们看重普通用户在享受AI的过程中创造的内容，而不是仅为好莱坞电影制作人提供工具。早期，我们的产品看起来可能更像是一个工具，但我们下一步的主要努力方向是构建社区，希望最终从社区发展到平台。

新皮层：你们怎么看待不同用户的审美多样性？

缪亦舒：用户对视频内容的欣赏能力是一个问题，但并不困扰我们。AGI必然会与人类存在分歧，这是我们必须接受的现实。AI生成的内容有时与用户的期望不符，但这种分歧和审美差异是不可避免的。

AGI是一个智慧的集合，它会有自己的观点，但不必让所有人满意。我们做AI产品的目标是满足大部分用户的需求，而不是追求让所有人都满意。

新皮层：不提供太多可能性，这可能是更好的商业化路径？

缪亦舒：对，专业用户的审美的确不容易在一个模型中体现和表达。AGI无法满足所有人的共识，但它可以达到大部分人的审美期待。

新皮层：社区的定义听起来很广泛，它是一个像TikTok那样的社区，还是像Character AI那样的社区？

缪亦舒：TikTok已经是一个成熟的平台，用户可以创建和消费内容。我们所说的社区更早期一些，主要是为用户搭建交流和分享的渠道，建立专业用户和普通用户的交流，降低生成AI视频的门槛。我们的社区可能更像小红书，用户可以分享生成视频的心得、使用的提示词、设计思路等，其他用户可以在此基础上进行二次创作。

新皮层：构建这种社区是否意味着目前用视频模型生成可被消费的内容的门槛还很高？

缪亦舒：对，在做平台之前需要先做一个社区，主要是因为视频生成的确有门槛，普通用户很难一步到位地创造出高质量的内容。目前，我们还没有达到大多用户只消费而不参与创作的阶段，鼓励用户积极创作是很重要的。最终我们希望社区能够发展成为一个平台，它不仅可以支持用户创作和消费内容，还能吸引新用户通过这些创作内容来参与消费，形成一个自我增长的生态系统。

新皮层：抖音等短视频平台也在开发视频生成工具，试图提供给用户，你们的产品与他们的有什么区别？

缪亦舒：大公司可能会专注于构建工具，围绕现有平台构建生态，我们的侧重点在于探索一种新的创作方式。尽管许多人使用过TikTok等平台，但真正成为创作者的人并不多，因为创作门槛相对较高。目前这类短视频平台上的内容创作还是需要摄像镜头的介入。而我们更倾向于一步到位地利用AI生成视频，不需要相机，我们提供的服务能让用户直接用文本和图片创作视频，这与现有的主流创作方式不同。

新皮层：Haiper目前生成的视频只有4到8秒，这个时长能够做什么？

缪亦舒：4秒的视频能做很多事，例如作为广告视频或讲个小故事。如果要讲更长的故事，可能需要拼接和剪辑过程。

新皮层：通过一键生成的方式，目前能生成可被消费的视频吗？

缪亦舒：一键生成视频是奢求，目前的技术更适合多段式的表达。并不是因为对于4秒很难，是story telling这件事本身很难，对内容理解的要求极高，你很难在4秒里讲一个完整的故事或实现一个小的幽默。

新皮层：AI是否降低了用户的视频创作门槛呢？

缪亦舒：工具上的门槛降低了，但story telling本身的门槛没有降低，高质量创作仍然是困难的。这不是工具的问题，而是创作能力的问题。做story telling是AGI可以做的事情，在AGI到来之前这是最难的。

新皮层：story telling的工作是否可能由另一个AI来做？

缪亦舒：有可能，但现在还不行。AI如果能做story telling，那标志着AGI已经到来了。在AGI到来之前，story telling是我们认为最难的事。

新皮层：你们是否会考虑在社区中加入story telling的agent？

缪亦舒：我们一定会尝试。

视频模型的ChatGPT时刻还没有到来

新皮层：目前视频类产品在用户群和活跃度上与语言模型存在差异，这是什么原因？

缪亦舒：首先，视频模型本身的产品成熟度不如语言模型。此外，市场教育也不足，用户可能还没有意识到AI可以在视频内容方面做很多事情。

不过，虽然视频模型不成熟，已经有一些实际应用案例出现，比如在广告等领域的商业应用。早期的语言模型比如GPT-2主要应用于情感分析、分类或内容审核等，并没有大规模应用。与语言模型相比，视频模型更接近消费者，即便技术和产品还不成熟，其生成的内容也有更大的价值。

新皮层：视频生成是否已到达「ChatGPT时刻」？

缪亦舒：还没有。ChatGPT时刻起码意味着所有人都可以使用这项技术，而目前Sora等产品的发布带来了新体验，但它们还只是demo，没有大规模应用。

新皮层：视频生成技术目前相当于GPT的哪个阶段？

缪亦舒：大致是GPT-2，但我认为它在应用方面并不像GPT-2那样初级。

新皮层：语言模型领域存在一种观点，认为只要投入足够的时间和数据量就能够达到预期效果，在视频模型的发展中是否也有相同的情况？

缪亦舒：我之前有过语言模型方面的经历，其实语言模型并不像大家想象的那样简单，尽管时间和数据量是重要的，但仅仅增加这些并不足以保证成功。首先，工程实施方面存在很高的门槛，仅仅增加数据量、扩大模型规模或使用更多的计算资源，并不能完全解决问题。例如，一个模型在不同数量的GPU上训练会产生不同的结果，这涉及到模型扩展的复杂性。

而视频模型相比语言模型需要考虑更多的问题，视频模型需要适应GPU内存，处理大量的元信息，考虑视频的时长、风格和内容的多样性等。这些因素都增加了视频模型开发的复杂性。

因此，虽然扩大规模是一个发展方向，但实际上它并不是一件简单的事情。人们可能会试图为scaling law（规模定律）找到一个简单的解释，但这是一项庞大的系统工程，需要综合考虑多个方面的因素。

新皮层：你怎么看视频生成在实现AGI过程中扮演的角色？和语言模型相比，哪个更容易通往AGI？

缪亦舒：我倾向于视频，因为语言虽然是智慧的载体，包含了许多逻辑，但它并不能代表所有的智能。维特根斯坦曾说，语言的极限就是我的世界的极限。如果我有一个朋友躺在医院，无法出门，我可以每天用语言描述我看到的世界给他听，但这并不能代表他也真正看到了这个世界。总有一些用语言无法描述的东西，它们构建了我们对世界的独特理解，这就是多模态性（multimodality）。

现在的大语言模型可以理解和读取视频，但生成视频是另一回事。理解视频，将视频作为输入、文本作为输出是容易的，因为它可以成为一种表达方式。但感知是一项更加多元和先进的能力，是AGI路径上的重要一步。如果我们的AI停留在逻辑层面的智慧，和物理世界没有连接，只以文本形式与人类交流，我认为这样的AI还不能被称为AGI。视觉内容生成是AGI路线上不可或缺的一部分。

DeepMind教会我们如何分配资源

新皮层：Haiper将办公室设在了伦敦的国王十字（King’s cross）地区，为何众多技术公司，如Google、Facebook等也选择了这里？

缪亦舒：King’s cross确实已经成为技术产业的聚集地。自2012年起，Google来到King’s cross，带动了这一趋势，之后吸引了Meta、Uber、Waymo等公司，形成了自然的聚集效应。

新皮层：与硅谷相比，伦敦在AI领域的发展情况如何？

缪亦舒：由于DeepMind的影响，伦敦在AI人才方面储备充足，尤其是研究科学家类的人才储备，并不比硅谷少。但是伦敦的创业文化相对落后，毕业生很少选择直接创业。

此外，与硅谷相比，伦敦偏好的研究方向也有差异，英国有探索科学与人关系的倾向，所以对AI安全等课题有较为强烈的兴趣。

不过，一个有趣现象是，尽管硅谷是许多技术人才梦寐以求的地方，但伦敦有很多人不愿远赴美国。我的很多同事都对欧洲有着深厚的文化归属感，他们钟爱欧洲的生活方式。他们最多会前往巴黎寻求新机会，但很少有人会去美国工作。

新皮层：你们考虑过在湾区开设一个办公室吗？

缪亦舒：考虑过，但现在还不是时候。我们确实希望能在湾区触及全球顶尖人才，但管理一个新的办公室需要有经验的经理来规划。我们可能不会很快开设，但确实在探索这一方案可能性和合理性。

新皮层：Haiper是否在计划新一轮的融资，会在英国以外的市场去找钱吗？

缪亦舒：我们即将关闭新一轮融资，并且不限于英国的资金。

新皮层：你和另一位合伙人王子聿之前都有过在DeepMind工作的经历，DeepMind教给了你们什么？

缪亦舒：我和子聿10年前就认识了，他是我在牛津的同学，我们在学校属于同一个课题组，我做语言模型，他是做优化和深度强化学习的。我在DeepMind主要是做语言模型，当时这还是一个很冷门的方向，大家觉得语言模型就是用来做翻译的。经常有同事开玩笑说，语言模型很有趣，但有什么用呢？

DeepMind的确教给了我们很多，作为企图实现AGI的先驱，DeepMind有着非常完整的项目管理和科研管理体系，明确区分了研究科学家和研究工程师的角色，项目的领导者也非常有远见，能够预见项目的发展情况，合理配备所需资源，确保团队成员之间的沟通。

Deepmind没有赶上这一轮生成式AI的发展先机，可能是因为在「get your hands dirty」这一点上做得不如OpenAI这样的公司。

新皮层：你们现在的分工是怎样的？

缪亦舒：疫情期间，我和子聿重新联系后，决定一起做些事情，因为我们在多模态和视觉内容生成方面有丰富的经验。目前我的工作更多是产品、商务和管理，而子聿负责大模型系统和基础研究。

新皮层：目前Haiper在伦敦和加拿大的团队规模如何？

缪亦舒：伦敦团队有15人，涵盖产品、工程和机器学习，而加拿大团队约6人，只负责机器学习。

新皮层：去年，你们团队的发展方向从3D转向了视频生成，这个转变是如何发生的？

缪亦舒：转变的发生一方面是基于我们对内容的判断，另一方面也和我们团队的技术积累相关。在3D领域，我们已经有了较成熟的技术积累，我们是最早在3D领域应用神经辐射场（Neural radiance fields，NeRF)的团队，并且推出了iOS端的用户产品。

我们创立Haiper的初衷是构建一个有影响力的产品，让普通用户也能享受到技术带来的快乐。但从去年年初开始，我们意识到3D内容的创作和消费都更倾向于专业用户，主要应用场景和输出场景更倾向于面向企业的服务，比如游戏或AR/VR领域。对于普通用户来说，3D内容的创作门槛很高，并不容易欣赏或者消费。我们评估后认为视频生成将是一个有竞争力的市场，视频内容更接近实际应用场景，更容易被用户消费，也更贴近我们对内容生成的最终目标。

此外，我们也对团队在视频方面的技术储备有信心，我自己有语言模型的背景，算是最早一批做大语言模型的人，对语言模型有深入的了解。关于如何scale up，如何从数据到模型层面进行优化，扩大模型规模，我们都有相应的技术储备。

新皮层：这个转变有特定的契机吗？是否受到市场上的某个产品或模型启发？

缪亦舒：我们并没有被某个具体事件触发，而是在3D内容渲染到视频的过程中意识到，如果有足够强大的视频生成模型，我们就不需要3D模型了。我们的研究也证明了，3D和2D的视频在本质上是可以互相转换的。此外，我们也看到了市面上同类产品的生成效果，我们觉得自己可以做得更好。

新皮层：3D生成和视频生成背后的技术是否相同？

缪亦舒：两种技术背后的路线都与Diffusion Model（扩散模型）相关，但侧重点不同。视频生成技术需要构建更大的模型，这是不可避免的。而3D技术不一定需要如此大的模型规模，3D模型的参数还没有到瓶颈。不过两种技术在本质上存在相通之处，早期的视频生成技术和3D技术的相关性更高，但现在随着视频生成技术的快速发展，两种技术已经有很大不同了。

新皮层：Haiper目前已经有了一些商业合作案例，比如京东和伦敦艺术大学。你们与这些组织的合作主要是什么形式？

缪亦舒：首先，我认为生成式AI最大的潜力还是在C端。为企业定制相对闭源的模型是一个可以突破的市场，但目前还不够成熟，原因在于它涉及到一系列的流程和挑战，并不像LLM（大语言模型）那样直接。我们目前主要通过API的形式提供服务。

新皮层：你们的客户既有电商，也有大学，看起来很分散，到底什么样的行业才是你们的目标客户？

缪亦舒：我们在选择合作伙伴的行业时会有所挑选，但目前更多还是在广泛探索、强调广度的阶段。我们希望和不同行业接触，探索我们的模型在哪些领域能够发挥作用。最终，我们的合作对象可能会逐渐收敛到特定的行业，但这个过程并不是事先规划的，而是通过不断地探索和磨合形成的。

公司档案：

Haiper

创立时间：

2021年

CEO：

缪亦舒

核心产品：

Haiper：视频生成模型，具备文生视频、图片转视频、视频编辑以及视频扩展功能；

融资历程：

· 2024年3月，融资1380万美元，由英镑种子基金Octopus Ventures领投，五源资本跟投；

· 2022年4月，融资540万美元，由Phil Blunsom和Nando de Freitas等天使投资人投资。

-END-

源济 · 发表于 2024-10-8 07:59 PM

大模型盘点③ |智元：想让所有机器人都接入智元的大脑

第一财经YiMagazine 2024年10月03日 20:55

记者：吴洋洋陆彦君

表格整理：杨秋秋陈凯悦｜制图：程星

编辑：吴洋洋

Key Points

对机器人来说，更重要的是动作大模型，而不是语言大模型；

动作编排大模型在智元的公司战略中占据中心位置，其他技术它都开源了；

就像OpenAI将GPT做成大模型领域的基础设施一样，智元也希望未来所有的机器人都使用同一个大脑——智元牌的；

在机器人大脑的进化上，智元提出了G1到G5的演化路径和技术框架，并认为目前我们处于G2和G3阶段；

家庭场景的任务比工业场景更复杂，从B端积累的能力可以泛化到C端。

大模型领域进入瓶颈期后，人形机器人成为新风口。简单比较下每年8月底在北京举行的世界机器人大会（WRC）的展商阵容就能发现这一点。与一年前相比，刚刚结束的WRC 2024上人形机器人的厂家数量同比增加了一倍，它们取代传统的机械臂、手术机器人或者机械狗，成为展馆中占据最大面积的机器人类型。

人形机器人被从0到1组装出来的速度令人惊讶。今年年初，耶鲁大学计算机专业博士生杨丰瑜才传出进入人形机器人领域创业，5个月后，其创办的Unix机器人公司就让可以叠衣服、做汉堡的人形机器人「走」出来了。Unix可能是最快的，但不是唯一的，WRC 2024挤满了2022年、2023年才成立的年轻机器人公司，现场看起来就像是2023年「百模大战」的再次上演，只不过这一次模型们开始有了身体。

Unix展示它们用5个月时间做出来的机器人叠衣服。

今年的「百机大战」与去年的「百模大战」有不少相似之处，尤其在商业化的方向选择上。和大模型公司一样，人形机器人公司们也面临选B端还是C端，抑或「两条腿」走路的艰难选择。WRC 2024展会上，差不多有一半的公司选择家庭场景，它们希望消费者将其机器人买回家当作玩具，或者在不久的将来帮他们做点家务，Unix是这个方向的代表。同时有另一半的公司选择B端的工业、零售等场景，比如智元希望他们的机器人可以进工厂干活，银河通用想要他们的机器人有朝一日在无人值班的夜间药店为消费者抓药，宇树科技则既推出了可以去危险的工业场景中巡检的机器狗，同时又推出了个子相对瘦小、看起来像儿童而非大人的小号机器人以便在家庭场景中服务普通用户。

银河通用展示机器人抓药。

另一个相似之处是肉眼可见的同质化。WRC 2024展会上，几乎每一家机器人公司的人形机器人都有了还算灵巧的双足或者双手，加载了ChatGPT后，它们可能连跟你说的话都一样。

不过，与这些外在的相似之处相比，「百机大战」与「百模大战」两股潮流的不同之处更多。首先是玩家身份，训练大模型的公司们，包括MiniMax、月之暗面、智谱、百川等在内，都没有提出过要进入机器人领域，目前已拿到融资或已推出人形机器人的创业者都是全新的，百机大战与百模大战是两个圈子的游戏。其次，机器人公司的估值依然远低于大模型公司，目前估值最高的两家人形机器人公司智元和宇树科技的估值都在70亿元左右，而头部大模型公司的估值都已经上涨到200亿元左右。

造成这些人形机器人公司估值更低的原因之一是投资人们的「非共识」，部分声音认为人形机器人的ChatGPT时刻至少要再过几年才会到来。然而更重要的原因来自于为「百模大战」烧钱的后遗症，市场原本预期大量投资能够筛选出像OpenAI那样的垄断性选手，结果却是同质化的智能水平，甚至基于模型开发的产品形态都是差不多的。人形机器人公司们被资本市场期待拥有更强的造血能力，而不是依赖融资生存。

这种压力下，国内这些人形机器人公司们很难像特斯拉那样对机器人进行软硬件一体化的全方位投资，而是分别在大脑（即认知和任务规划能力）、小脑（即运动控制）和本体（即身体硬件）方面有所侧重。

我们在3个类别中分别选择了一家公司，尝试通过对它们的采访或资料梳理，展现机器人新浪潮初期的市场逻辑。本文是第一篇，关注的是2023年2月由「稚晖君」彭志辉在上海创立的人形机器人公司「智元」。

作为目前中国估值最高的机器人公司，智元机器人在今年8月18日举办了创立后的第二次发布会，发布了远征A2、远征A2-W、远征A2-Max、灵犀X1与灵犀X1-W等5款商用人形机器人。

8月18日的发布会上，智元机器人发布的5款商用机器人。

这次发布会上，智元机器人展示了它的最新款人形轮式机器人远征A2-W有多聪明和能干。在一个布置得像客厅的场景中，彭志辉对这个机器人说「给我做一杯萄汽可乐吧」，远征A2-W回问「什么是萄汽可乐」，「就是把葡萄榨汁和可乐放在一起」彭志辉说。听到解释后远征A2-W就移动去了桌子边，从既有青枣、葡萄又有小番茄的碟子中选中葡萄，拿起榨汁机，成功将葡萄打成汁，然后又从有可乐、雪碧、橙汁、矿泉水的罐装饮料中选中可乐，用它的两根手指打开瓶盖，成功将可乐倒入葡萄杯中，递给彭志辉。

在这段演示之前，全球从未有机器人公司现场展示过机器人在语义理解和手眼配合完成相对复杂任务等两方面的能力。此前，包括Figure AI在内的美国同行也是更多展现了他们的机器人加载ChatGPT后如何善解人意。

支持远征A2-W机器人为彭志辉成功制作「萄汽可乐」的，是智元的动作编排大模型。这个大模型在智元的公司战略中占据中心位置，在此之外，它虽然也投入机器人本体、运动控制等部分的研发和机器人整体的生产和销售，但其他一切投资和商业模式都建立在如何让这个动作大模型变得更强上。

动作编排大模型变得更强的必要条件之一是数据。这次发布中，智元推出了专门用于数据采集的机器人灵犀X1-W，并在上海修建了一个由大批机器人组成的数据采集工厂，计划到10月底投入100多台机器人，由此采集的海量真机数据，除了可以教会机器人完成特定的操作任务外，还可以用于训练一个更为通用，可以理解任务、规划行为的机器人大脑和一个可以灵活执行多种不同任务的机器人小脑。

智元机器人在上海建立的数据采集工厂。

这些预训练只是智元获得数据的方式之一，它更大的计划是让机器人以更快的速度进入更多工业场景，从真实的工业岗位中获得数据。8月18日的产品发布会和8月20日开始的WRC 2024展会上，智元展示的都是一种鲜见的开放态度：开源和生态成为两个不断被提及和展示的关键词。一年之前，它强调的还是自己是一家能做研发并能制造出足够聪明的机器人的公司，至于它借助了哪些产业链的力量，那是秘密。而今天，包括讯飞、均普智能、数字华夏、北电数智、软通动力等在内的产业链上下游公司都已成为智元的生态成员，并在WRC 2024展会的智元展台一同展示。

「智元智元做的事是把机器人的大脑和小脑都搭起来了，以后所有人都可以基于我们的机器人大脑和小脑API接口，去做技术开发。」智元机器人商业拓展负责人胡静萍在展台上对「新皮层」说。就像OpenAI将GPT做成大模型领域的基础设施一样，智元也希望未来所有的机器人都使用同一个大脑甚至小脑——智元牌的。

智元开源了除动作编排大模型以外的所有机器人技术，从本体到运动控制，从硬件到软件，以及未来其数据工厂会产生的数据，以此打通进入更多工业场景的路径。胡静萍称，未来很多公司并不需要亲自投入机器人本体的研发，智元会通过技术开源让机器人本体的价格变得更低，同时这些公司也不需要再从零开始开发适合其场景的机器人大脑，只用接上智元的机器人大脑API接口就可以了。

这款更有「人情味」的机器人来自深圳的数字华夏公司，其本体来自与智元机器人的远征A2。

在机器人大脑的进化上，智元提出了G1到G5的演化路径和技术框架。类似自动驾驶从L1到L5的进化，智元认为机器人的智能也将经过从只能完成简单任务到能胜任复杂任务的成长过程。智元合伙人兼营销服副总裁姜青松在接受包括「新皮层」在内的媒体群访时称，「我们现在是在机器人的G2和G3阶段。」

商业化路径上，智元首先选择的是B端中的工业场景，理由是相较于C端的复杂任务（像远征A2-W那样完成从选中葡萄、榨汁、选中可乐、将它们混合在一起的工作，是一种多步拆解），B端的任务相对更单一。姜青松称，智元认为这些对单一任务的学习和技能累积未来能最终泛化到C端场景中。这是一个从G2、G3，向G4、G5进化的过程。

以下是智元合伙人兼营销服副总裁姜青松与包括「新皮层」在内的媒体交流的记录，为方便阅读内容经过编辑。

相较于机器人本体，智元更在乎机器人的大脑

提问：智元在开源后的愿景是什么？怎么看待人工智能开源和闭源两派的观点？

姜青松：开源肯定是对整个产业链促进最大的，开源才有更多人使用，但是机器人行业太新了，怎么开源能够让用户使用是关键，这是我们考虑最多的地方。

我们提出了三个开源，第一就是数据集开源。AI是数据驱动的，现在每采一条数据都有成本。我们之前都是数据采集工人一人教一台机器生产出来的，那个成本很高，现在我们把之前真机数据共享出来一部分，让大家能够快速地利用数据去使用机器人。

第二个，我们开源了灵犀X1，是想降低大家造机器人的成本。比如学生或者科技达人想做机器人，如果都按照几十万一套，肯定承受不起。我们现在全套零部件价格已经非常合适，你只需要买零部件，零部件价格又很便宜，我们又开源了所有图纸、软件框架还有算法，这也是促进产业往前发展的。

还有一个是开源的是底层操作系统。就是像安卓手机一样，但是中国现在还没有我们自己的机器人操作系统。这部分我们把一部分中间件开源了，相当于慢慢地为国产的机器人操作系统做一份铺垫。

提问：过去一年机器人公司的数量翻倍，机器人本体的门槛越来越低，未来机器人公司会越来越多吗？

姜青松：真正能够为客户创造价值的部分是大脑，进入这部分的机器人公司并不是很多。我们在做从机器人本体、小脑到大脑的全栈布局。我们有5款大脑，还发布了数据采集系统，实现以数据来驱动；小脑就是部分的运控算法，进行全栈布局的机器人厂家很少。机器人真正的核心是大脑，大脑才能给客户带来价值。

提问：大脑部分智元接的是讯飞？

姜青松：大脑里有两个大模型，一个叫做通用大模型（注：指语言大模型），我们用的是讯飞大模型。但是我们不是用它的人机对话功能，而是用它对世界的认知能力，比如我要去拿一瓶水，它会告诉我水在哪里。对世界的认知工作由通用大模型完成，但是要去「拿」这个动作，需要由动作大模型完成。动作大模型由数据驱动，相当于需要有一群人来训练机器人去拿水，训练多了机器人就会了。

通用大模型靠整个业界来发展，但是动作大模型是我们自己做的核心大模型，壁垒会很高，特别是数据壁垒。通用大模型数据来自互联网，但是动作大模型的数据来自于实际场景，必须实际地去采。我们做工业场景，必须真正地去服务工厂，才能有真实的工厂数据。

提问：华为、阿里也有工业大模型，区别是什么？

姜青松：这种工业大模型是不一样的，是两个维度，这种属于工业知识库，而我们的模型是实际做工。工厂里面分IT和CT，IT是技术基础、信息架构，CT是通讯。但是还有一个东西叫做OT（operational technology），实际操作，我们现在就要实际去工厂干活，手把手教机器人怎么去干活，教的过程产生的数据就是最有价值的数据。

提问：你们对G4和G5的定义是什么？

姜青松：G3是拥有原子能力，比如拿水的能力；G4就是机器人能够做简单任务，知道从这里拿到那里，做一个短任务；理解物理是G5，相当于说它能够做复杂任务了。G5就差不多可以在家里面干任何活了，你说一句话「我渴了」，或者是「我饿了」，机器人知道立马去厨房做好饭，这就是G5。

提问：你们投资人说第一个场景跑通需要三到五年，你们怎么判断？

姜青松：如果要做G5，那肯定是需要五到八年，甚至更久。第一步的商业化是简单的，工厂里做工很简单，比如流水线拆解动作就是一个简单动作，从这里拿到那里，可以通过机器人来做。所以为什么要进工厂？因为从简单的工厂开始，再慢慢到复杂工厂，可以为进入家庭做好铺垫。机器人肯定一开始是ToB，然后再慢慢地ToC。它的能力是需要积累的。

提问：你们的动作模型和语言模型现在还是分开的，需要融合吗？

姜青松：现在是分开的，业界各有说法，我们如果到了G5的阶段是可以融合的，但还是需要根据那个时候的技术路线决定。

提问：现在做动作大模型的公司多不多？

姜青松：不多，而且很多人都没在这儿（指世界机器人大会）展示。比如典型的像我们，灵初、星尘智能也是，目前投资界在接触它们，银河通用也是偏向大脑。他们对本体不是那么关注，你们看他们都是轮式。

工业场景是个切入点，累积够能力后可以泛化到家庭

提问：未来的工厂里，哪些场景是留给那些传统机器人公司比如ABB的，哪些是留给你们的？

姜青松：现在工厂里面ABB那种传统工业臂已经用得很多了，差不多能够解决工厂百分之六七十的自动化问题，但还有很多的柔性场景、危险作业，比如烟花炮竹、化工等危险场景。这些地方就是我们首先要做的，现在我们已经在联系一些客户，准备让机器人参与这种场景。

机器人怎么去做呢？第一步叫遥操作，工人离开危险操作区域，只戴上VR眼镜，穿上「动捕」（即动作捕捉）服，工人操作得越来越多，数据就形成了。数据形成以后，机器人就有了泛化能力，这就是机器人进工厂的一种途径。

还有一些简单的做法，比如像上下料，我们在上海建了一个大型的数据训练场，到了10月底会有100多台机器人，也有100多个工人手把手教它们干活，教多了机器人就会了。这也是机器人进入工厂的一种模式。

这些就是我们说的数据驱动，而其他机器人公司还在展现运动控制能力，运控能给客户带来的价值其实大家都能看得到，机器人再怎么会走路、会跳，与用户有什么关系呢？

提问：要实现你们的愿景，现在需要解决哪些问题？

姜青松：要一步步走，今年我们会能解决一些场景，比如像上下料我们已经开始逐步能够解决了。

原先所有的机械臂需要在XYZ三个方向上位置固定、大小固定才能操作，但我们现在可以做到泛化，任意零件，任意物体、任意位置我都能识别，都能快速操作。这个我们完成的第一步。

明年我们想尝试做装配，装配的重复性会特别大。那些活特别枯燥，一大堆线，一大堆特别小的线头，要穿针引线，得一天8到10个小时，这对年轻人来说是种灾难。机器人行业会产生新工种，比如第一个数据采集，还有一个叫做数据校准师，数据是要调的，一个行业会产生很多新的岗位。

提问：现在工厂里面最耗人的地方是什么？

姜青松：就是柔性物质的装配，特别是装配这一块，普通的工业机器人很难操作。机器人发展有两个大方向。一个是手要越来越精巧，我们发布的机器手可以抓针、可以摸东西，会越做越精密，以后进入工厂，它干的活就会像人一样了。还有一个就是脑，让机器人越来越能够干更多的活。人类从猿进化到人，就是释放了双手，机器人的发展也一样。走路大家最后都会走，会有多大差异？但是手是不是足够精巧？脑是否足够聪明？这才是人形机器人发展的两个大方向。

提问：toB和toC两个场景，会是工业场景、toB先跑通吗？

姜青松：人形机器人有两个能力，一个是能跟你对话、了解你，另一个是能帮你干活。（家庭这样的）交互场景锻炼的是它的对话理解能力，工厂锻炼的是干活能力。到某个点的时候会两条线并合的。

提问：哪个更难呢？

姜青松：都挺难。现在人机对话已经做到GPT-4o了，但是对自己的感知还不是很强，它只是一个平面感知。李飞飞做了一个三维空间，构造虚拟世界，这里有物理世界所有的逻辑和规律，达到这个程度后，机器人才会有对世界的真正认知。机器人现在了解的只是互联网的数据积累，是一个知识百科，但它对物理世界不够了解，比如一瓶水我手松开了，它肯定会往下掉，但这个规律GPT不知道。

提问：在工业这个场景，现在挑战是PMF（产品-市场匹配）问题，还是价格？

姜青松：价格现在不是问题。工业场景一般按照两年的投资回报计算，就是一个岗位一个工人两年来算。一般两年是一个犹豫期，就是说新技术客户它会用，但不会规模采用，你做到1.5年的投资回报周期的时候它会大规模采用，而做到1年的时候它会毫不犹豫地采用。其实我们现在价格已经非常能满他们要求了，（我们的产品投资回报周期）是在1.5年到2年之间了。

公司档案：

智元机器人

创立时间：

2023年

CEO：

彭志辉

核心产品：

远征A2（交互服务机器人）、远征A2-W（柔性制造机器人）、远征A2-Max（重载特种机器人）、灵犀X1（全栈开源机器人）与灵犀X1-W（专业数采机器人）

融资历程：

· 2023年3月，天使轮融资，具体金额未披露，投资方为奇绩创坛、高瓴创投；

· 2023年3月，A轮融资，具体金额未披露，投资方为奇绩创坛、高瓴创投、鼎晖投资、临港新片区基金；

· 2023年4月，A+轮融资，具体金额未披露，投资方为BV百度风投、经纬创投，司南园科；

· 2023年8月，A++轮融资，具体金额未披露，投资方为比亚迪、沃赋创投、蓝驰创投；

· 2023年12月，A+++轮融资，总额超6亿元，投资方为蓝驰创投、中科创星、鼎晖投资、长飞基金、C资本、高瓴创投等；

· 2024年3月，A++++轮融资，总额超10亿元，投资方为M31资本、红杉中国、上汽投资。

估值：

70亿元

-END-

源济 · 发表于 2024-10-9 07:23 AM

大模型盘点④ | AI科创之城，中国VS全球

Original 何昕晔、邢梦妮第一财经YiMagazine 2024年10月04日 22:24

记者 | 何昕晔、邢梦妮

编辑 | 吴洋洋

*本文首发于2024年6月13日

2022年11月开启的生成式AI浪潮中，几乎每个国家、每个有全球野心的城市，都在制定政策、调配资源、激活当地创业氛围，一些政府甚至不惜亲自下场支持当地最有潜力的创业项目。所有人都明白：争夺大模型，就是争夺下一个技术时代的基础平台。互联网和移动互联网时代，整个欧洲都错过了这样的机会，只有中美两国培养出了10亿用户规模以上的硬件品牌和软件应用。

生成式AI带来新的洗牌机会，但能否抓住这样的机会取决于很多因素。我们选择和调查了过去一年来以人工智能之名在各大媒体上频繁露出的几个城市，尝试回答“到底哪个城市能抓到大机会”这一问题。巧合的是，在访问了蒙特利尔、硅谷、纽约、伦敦、巴黎、新加坡、北京和东京等几个城市的相关人士后，我们发现一个叫AMiner的机构在跟踪全球人工智能领域10年发展后提出的创新城市排名，与我们的调查选择几乎重合。AMiner的榜单衡量了全球各地论文、学者、机构的数量与质量，以及这些城市与国际合作的指数——选择和采访当地人士时，我们也逐一涉及了这些维度。那么，所谓的巧合其实是种必然。

已经很少有一个机会能让全球众多城市都跃跃欲试了。到底哪个城市能抓住机会？谁能抓到最大的机会？我们的初步调查表明，在这种全球影响力竞争中，区域竞争其实比全球竞争更激烈。在竞争全球用户之前，每个城市及其公司都需要先角逐人才。而在人才流动上，全球化仍然要让位于区域化。其次，对于学术资源深厚的城市，每个大厂都想去设办公室、抢夺人才，但这对当地城市不见得是好事。最后，基础技术不是一切，产业和文化具有多样性，才能支撑更繁荣的机会。

……

硅谷之外：蒙特利尔和纽约寻求突破

在博世工作3年后，沈露兰决定放弃博世中国功能负责人一职，前往加拿大蒙特利尔的麦吉尔大学读博。2022年博士即将毕业之际，沈露兰就地创立了自己的人工智能公司AwakeAI，尝试通过AI视觉技术实时检测视频监控数据来分析老年人的生活习惯，为护理人员和家人提供实时信息和风险警报。

把公司注册在蒙特利尔的原因之一是自己在这里读了书，另一个原因，这里不缺做AI基础研究的人才。

这一轮生产式AI浪潮到来之前，自2017年起，包括Google、微软、Meta、华为在内的技术公司纷纷在蒙特利尔设立研究中心。2018年，加拿大政府还将蒙特利尔确立为国家AI供应链超级集群“Scale AI”的总部所在地。

把这些技术大厂吸引到加拿大尤其蒙特利尔的，是这个人口只有400万的城市的学术资源。“深度学习三巨头”中的两位——杰弗里·辛顿（Geoffrey Hinton）和约书亚·本吉奥（Yoshua Bengio）都在加拿大，前者在多伦多，后者就在蒙特利尔，并且创立和运营着一个叫Mila的机构，那里汇聚了超过1400名AI相关的研究人员。如果计算人才密度——尤其顶尖学术研究人才的密度——恐怕全球没有几个城市能与这个小城相比。

Mila全称“蒙特利尔学习算法研究所”（Montreal Institute for Learning Algorithms），是目前全球最大的深度学习研究所。2017年，在本吉奥的牵头下，蒙特利尔大学、麦吉尔大学等高校联合成立了这个机构。用本吉奥的话说，Mila诞生于一个“让蒙特利尔成为世界AI中心的疯狂梦想”。

蒙特利尔的Mila是全球最大的人工智能人才库，创立者是深度学习三巨头之一的Bengio。

除了基础研究，Mila旗下的“Mila Startup”孵化项目还为有创业企图的研究者提供资金和办公场地支持。入选这个孵化项目的门槛很高，自发起以来，每年通过Mila Startup审核的项目不会超过10个。严格筛选的好处是，对投资人来说，从这个机构里出来的项目的创新性和技术能力几乎不会受到任何质疑。

“从融资等各种角度，硅谷肯定是最好的。但在深度学习这一块，蒙特利尔基本上对标斯坦福，现在这里处于飞速发展状态。”沈露兰对《第一财经》杂志说，去年，她创立的AwakeAI也入选了“Mila Startup”。

学术中心加技术大厂，这个组合是硅谷成为生成式AI全球中心的关键原因，而蒙特利尔同样拥有这个组合，这让它看起来像小型的硅谷。Mila只是蒙特利尔当地有孵化器性质的机构之一。

加拿大另一个最瞩目也最有野心的机构是“NEXT Canada”。这个名字听起来就很大，因为创立这个项目的人想要改变的正是加拿大本地的打工文化。在某种程度上，它就像创业孵化器Y Combinator的加拿大版。

沈露兰告诉《第一财经》杂志，加拿大虽然有不少学术水平不亚于斯坦福、哈佛之类的高校，但从加拿大的高校毕业的学生们后来的发展总是“不如斯坦福、哈佛的毕业生”，原因之一就是加拿大的“中产文化”。在加拿大，大部分学生毕业后的职业选择都是去Google、Facebook等大厂打工，寻求一种稳定的中产生活，而不是冒险创业。不过，这种状况正在被改变。

2010年，4名加拿大学者和企业家，共同召集了500多名加拿大学者、投资者和创业者组成了一个机构，决定培养加拿大的“next founder”（下一个创业者），而不是“next worker”（下一个打工人）。这个机构的名字就充满野心，叫作“NEXT Canada”。

受这个富有雄心的机构激励开始创业的加拿大年轻人正在增加，沈露兰本人也是其中之一。“相较于传统孵化器，它注重的不是你怎么发展企业，而是教你怎么做一个founder（创始人）。”沈露兰说。她本人是苏州人，一个生活安逸程度和蒙特利尔不相上下的中国新一线城市，在创业之前，她也和不少在加拿大读书的当地人一样，不觉得自己没有能力，但是从来没有想过要创业。AwakeAI创立之后很长一段时间，他们都在频繁参加创业竞赛，直到2023年的暑假，NEXT Canada在多伦多发起的“Next 36”项目踢了她一脚，让她下定回中国开拓市场的决心。

来自Mila的人才支持和NEXT Canada的创业指导，让沈露兰的创业项目在蒙特利尔初步扎下脚跟。不过如果继续往下发展，她认为蒙特利尔仍然有短板，比如它在算法开发上具有优势，但在落地场景和推进进度上，这里落后于全球其他地方。就沈露兰的创业项目来说，存在“鸡生蛋还是蛋生鸡”的问题，也就是说她需要在养老院和护理院寻找试点、实地获得数据，才能开发出真正派得上用场的老年人照护算法。

不少人工智能项目，只要进入垂直应用场景，都需要垂直产业配合。沈露兰认为，自己在加拿大当地没有太多社会关系，比较难找到愿意部署其老年人照护程序的养老院，2023年她回到老家苏州，很快就谈下一个比较大的客户——泰康。未来如果业务发展顺利，她也想到硅谷开一个办公室以此进入美国市场，因为加州有更成熟的康养产业，还有她渴求的市场产品人才。

蒙特利尔遭遇的困境，作为“大号蒙特利尔”的硅谷也正在遭遇。

2023年，谢赛宁离开了工作4年多的Meta，加入纽约大学，也从硅谷搬到了纽约。然后他发现，“这里的AI研究和创业氛围超乎我的想象”，他对《第一财经》杂志说。

谢赛宁本科毕业于上海交通大学，在加州大学圣迭戈分校获得了博士学位，目前担任纽约大学计算机科学系助理教授。他与比尔·皮不勒斯（Bill Peebles）合作发表的DiT模型相关论文被认为是Sora构建的基础。

谢赛宁对《第一财经》杂志称，纽约的AI发展显示出很强的上升势头。从创投热情、学术和人才储备各个角度，纽约都具备成为AI发展中心的条件。目前，纽约共有35家AI独角兽公司，融资总额达170亿美元。其中，开源模型社区Hugging Face和视频模型公司Runway都诞生于此。今年2月，还有媒体报道称OpenAI正在为纽约办公室寻找地点；3月，另一家AI初创公司Cohere也宣布开设纽约办事处。

这一轮人工智能新浪潮之前，纽约就汇集了多个顶级AI实验室，除了由“深度学习三巨头”之一的杨立昆（Yann LeCun）领导的纽约大学CILVR实验室，哥伦比亚大学、康奈尔大学和普林斯顿大学都在AI领域有强劲的科研实力。

如果说硅谷在基础模型领域确立了主导地位，纽约则正在成为人工智能商业繁荣的代名词。纽约是全球44家《财富》500强公司的总部所在地，这里聚集着各个大公司的决策者，他们都是AI市场的潜在买家。硅谷银行发布的统计数据显示，在纽约，获得风险投资的AI公司中有71%属于垂直应用领域，而在硅谷，这一指标数据是63%。

纽约开源模型初创公司Nomic AI的创始人布莱登·杜德斯塔（Brandon Duderstadt）曾在播客节目中表示，纽约目前的AI生态系统肯定比硅谷小，但纽约具备硅谷所缺乏的发展优势。“在纽约，你不仅仅是被技术包围，而是被来自各行各业的不可思议的人包围。”杜德斯塔说。

也正是在来到纽约后，谢赛宁对技术有了新的认知。“AI发展的最终愿景不是创造尖端技术，更重要的是寻求这些技术为社会带来福祉，让来自不同背景的人都能够提高生产力和创造力，从中受益。”他对《第一财经》杂志说。

在纽约，谢赛宁参加了Runway公司举办的AIFF人工智能电影节，这项活动吸引了来自全球各地的众多艺术家和创作者，共同探讨视频生成的未来。谢赛宁称，作为金融、商业、贸易、文化和传媒中心，纽约拥有多样化的社区、族群和广泛的职业机会，这是硅谷缺乏的。

……

欧洲：伦敦与巴黎的双子星之争

和北美老牌AI重镇与新兴AI创新中心并存不同，欧洲正在崛起的两个AI之城——伦敦和巴黎都是新星，它们都想争夺生成式人工智能领域的领先者之位，起码是欧洲的领先者。

非要比资历的话，伦敦在人工智能领域的经验更多一点。早在2010年，出生于伦敦的戴密斯·哈萨比斯（Demis Hassabis）和童年好友穆斯塔法·苏莱曼（Mustafa Suleyman），加上来自新西兰的谢恩·莱格（Shane Legg），就一起在伦敦创立了DeepMind，主要研究机器学习算法。

2014年，远在硅谷的Google来到伦敦，斥资6.6亿美元买下了DeepMind，当时这家创立仅4年的公司还没有公开发布过任何一款产品。而被收购以来，DeepMind的总部也从未搬离伦敦。

哈萨比斯曾在采访中表示，DeepMind必须留在伦敦，这件事没有商量的余地。“如果你拥有剑桥大学的物理学博士学位，并且想要做一些改变世界的技术，在伦敦没有太多选择——而在硅谷有成千上万的选择。”他曾在接受采访时说，如果创业者专注于长期目标，硅谷有太多泡沫，那里的人每5分钟就试图创造下一个Snapchat。

DeepMind在伦敦的办公室位于“国王十字”（King's Cross）地区，这里除了以火车和地铁枢纽著称——《哈利·波特》里的“九又四分之三”站台就在这里——如今还是英国甚至整个欧洲令人瞩目的人工智能创新中心。

不知是否为收购DeepMind做准备，2013年年初，Google在这里买下了占地2.4英亩（约合9712.45平方米）的一块地，并在附近建立了Google英国总部。Meta、三星、华为等技术大厂稍后也跟了过来。2023年，OpenAI在伦敦威斯敏斯特区设立了办公室。微软则于今年4月宣布在伦敦帕丁顿建立新的AI中心，它们都距离国王车站不算太远。

技术巨头聚集在这里的意图和Google一样，都是为了招募和发动当地的AI人才，配合大西洋另一端的美国总部寻找能开发更强大模型的新算法，就像DeepMind曾为Google贡献AlphaGo和Alphafold那样。

2021年年底，毕业于牛津大学机器学习专业的缪亦舒在伦敦创立了一家叫Haiper的视频生成公司。和上述大厂一样，他也把办公室设在了国王十字地区。

“伦敦是整个英国甚至是欧洲人才聚集的地方。”缪亦舒对《第一财经》杂志称，不同于牛津和剑桥的人工智能专业更强调培养学生的研究能力，伦敦的帝国理工学院和伦敦大学学院人工智能方向的专业设置更具有复合性，学生的动手能力也更强。

而且，尽管硅谷是许多技术人才梦寐以求的地方，伦敦有很多人不愿远赴美国。缪亦舒告诉《第一财经》杂志，他的很多同事都对欧洲有着深厚的文化归属感，他们钟爱欧洲的生活方式。他们最多会在欧洲大陆上的国家之间流动，比如有人会选择搭乘欧洲之星，穿越英吉利海峡隧道，前往巴黎寻求新的机会，但很少有人会去美国工作。2016年年初，哈萨比斯也曾在一次采访中表示，很少有员工会“主动离开DeepMind”。

缪亦舒本人在DeepMind实习过两年，他的合伙人王子聿在DeepMind工作得更久，曾参与AlphaGo的开发。

可能正如缪亦舒曾经的英国同事不排斥去法国工作那样，法国自进入生成式AI时代以来极为积极地招募全欧洲尤其是英国的AI人才，并给予英国无法提供的巨额投资。

法国这种做法的标志性成果是Mistral。创立这家公司的亚瑟·门施（Arthur Mensch）也曾在DeepMind工作，2023年5月，他和另外两位曾就职于Meta的员工共同在巴黎创立了Mistral。这家公司是欧洲为数不多的攻克底层模型的公司之一，在种子轮融资中就创纪录地筹集到1.05亿欧元。

英法两国领导人都在多个重要场合发出过饱含雄心的宣言，希望本国能在当前的人工智能浪潮中领跑欧洲。但事实证明，法国政府似乎比英国付出了更多行动。除了总统马克龙正试图推动重振欧盟的计划，为AI初创公司筹集更多资金，法国政府还在积极协助Mistral，推动欧盟在《人工智能法案》中对开源基础模型作出让步。

Mistral从巴黎和法国政府那里获得的支持是伦敦的同类公司们无法获得的。“英国政府想要构建全球影响力，但在产业主导方面的能力有限。比如，英国政府无法像中国政府一样，用划定一个科技产业园区的方式推动特定产业的集中发展。”缪亦舒对《第一财经》杂志说。

在Mistral之后，有更多原本在伦敦公司工作的AI人才加入巴黎。2023年年底，DeepMind研究主管Karl Tuyls、首席科学家Laurent Sifre以及公司创始成员之一Daan Wierstra也离开了DeepMind，来到巴黎创业。最新消息是，他们创立的H Company已于5月完成种子轮融资，共筹集2.2亿美元——打破Mistral此前创造的纪录。

相较于伦敦，巴黎的AI产业发展更多元，有很多“有意思”——面向C端——的公司正在涌现。比如，在种子轮中融资1.26亿美元的初创公司Poolside计划利用AI大大简化编程，Heart Hands则希望为普通用户开发“口袋里的第二个大脑”。而在伦敦，更多AI创业项目面向金融、建筑、自动驾驶等B端市场，像Haiper这样的视频生成公司在国王十字地区还是少数——在创立Haiper之前，缪亦舒的第一个创业项目也是to B式的，面向建筑行业提供3D建模服务。

缪亦舒也认同巴黎更有趣，但表示自己没有考虑过进入巴黎，而是将公司的第二个办公室选在了多伦多，由合伙人王子聿坐镇，因为“现在视频生成领域还不成熟，需要相当长时间的底层研发工作，而多伦多当地有充足的模型相关人才。”

……

亚洲：在新加坡、北京与东京之间

2023年，心识宇宙把总部从杭州搬到了新加坡。这家公司成立于2022年年初，主要为企业和消费者提供创建自主人工智能的服务。

对于联合创始人林宋琪来说，这不是开拓，而是回归。2015年，林宋琪从中国香港搬到新加坡，在当地的Facebook工作了4年。

促使心识宇宙搬迁的理由很简单：海外市场。新加坡历来都是中国公司出海、海外公司进入亚洲的桥头堡。它的实际国土面积只相当于北京的5%，常住人口仅540万人，和中国没有时差，技术基建完善。字节跳动、腾讯、阿里巴巴都在新加坡开设了办公室，不少公司会直接将服务器部署在那里。林宋琪称，在大公司的战略中，新加坡往往是辐射亚洲的据点。

能无障碍融入欧美国家的技术、金融和市场体系，这让新加坡吸引了越来越多外来创业项目，尤其是来自中国、面向全球市场的出海创业者，林宋琪就是其中之一。心识宇宙搬到新加坡后不久，就在种子轮中获得了澳大利亚基金Square Peg 500万美元的投资，这也是公司的第三笔融资。

林宋琪告诉《第一财经》杂志，越来越多来自欧美的美元基金选择在新加坡设点，这使得“新加坡整体的创投市场正在变得更美式”，即新加坡本土资本偏好现金流稳定、可预期、回报快的to B项目，但更多面向C端用户的项目开始得到外来资本的支持。

资本只是理解新加坡的其中一块拼图。林宋琪最肯定的是新加坡的政策和营商环境。“可预期性”是她反复提及的关键词——假设政府发布了扶持AI初创企业的政策，那么通常会持续很长一段时间。新加坡政府的效率也很高，比如信息媒体部会帮助企业参与政府项目、结识风险投资资源，甚至入选政府名单的企业无须参与招标。新加坡经济发展局、新加坡主权基金淡马锡也会投资初创公司。

“起步企业投资计划”（Startup SG Equity）或许能更直观地说明新加坡政府的做事方法。这个投资基金由新加坡企业发展局和11家私人投资机构共同管理，主要帮助那些需要大量资金和时间才能获得商业收益的初创企业。如果一家初创公司被承认为“深度科技”，首轮投资将达到50万新加坡元（约合268万元人民币），新加坡政府会负担其中70%资金。此后，私人投资者每投资1新加坡元，新加坡政府就将跟投1新加坡元，投资上限为400万新加坡元（约合2145万元人民币）。

但是，创新孵化连接器EPIC的联合创始人Cruise Chen认为，新加坡在这轮人工智能新浪潮中的角色“并不是创新者（innovator），而是跟随者（follower）”。Cruise Chen曾在新加坡十余年之久，负责投资AI和技术基建初创企业。

“新加坡倾向于采取跟随策略，像中国和美国这样的大国已经产生了大量专利和新的架构之后，新加坡再跟进。”他对《第一财经》杂志说。在他看来，新加坡拥有充足的财政资源，但受国家规模所限，更关注能直接带来经济效益的技术。

直到现在，新加坡政府仍然有强烈的本地保护意识。海外初创公司来新加坡注册，最开始会有10个外籍专业人士工作签证名额，但如果超过10个，就需要遵循“配额制”——每招一个本地人，才能招一个外籍员工。目前，AI初创企业在这方面没有优待。

与西方市场、金融和技术体系的无缝接轨吸引了包括林宋琪在内的中国创业者来到新加坡，反过来，这种便利也使得这个试图在人工智能新浪潮中占有一席之地的城市型国家逐渐失去自主创新的能力。

林宋琪切身感受到，新加坡在AI人才层面与中美相比存在断层。各高校每年人工智能相关专业的毕业生也就500到800人左右，而且因为大公司总部众多，岗位稳定、福利好，大部分新加坡人都对创业和加入初创公司没什么兴趣——与同样大厂办公室众多的蒙特利尔年轻人相似。

然而和蒙特利尔不同的是，来自硅谷的技术大公司们在新加坡设立的区域总部多是商务、市场、运营岗位，即便是研发人员，也基本不属于核心研发团队，往往只扮演区域性的研发和本地支持角色。

由于具有更加充足的人才储备，北京正在成为亚洲的AI创新引擎。

“从底层的硬件半导体，到上面的算力的框架，再到上面的模型算法的PaaS平台，每一层（以清华大学为代表的中国顶尖高校）都有一个实验室，或者说多个实验室相对应。”Cruise Chen对《第一财经》杂志说，他观察到，这些实验室基本都是在ChatGPT发布之前就开始运作的而这一轮人工智能新浪潮中，清华大学引领了中国的大模型热潮，例如刘知远教授领导的清华大学自然语言处理实验室、唐杰教授领导的知识图谱技术实验室。

如今，北京拥有智谱AI、百川智能、零一万物等估值在全球都排得上名次的AI独角兽。IT桔子2023年的统计数据显示，北京是AI领域融资活跃的高地，总部位于北京的人工智能公司的融资事件占全国的比重为29.4%，高于上海的19%和深圳的13%。

但Cruise Chen认为，中国的大部分初创企业还面临技术落地难的困境。中国的AI初创企业和大学研究室能在短期之内把技术的“地板”托高，但大部分创业者都更擅长技术创新，并未打通行业需求和应用场景。而且，它们是否能把技术的“天花板”推高，也要打个问号。

相较于新加坡和北京，同样位于亚洲的日本政府也在积极运作，试图将东京塑造成比北京和新加坡更具吸引力的创新中心。

ChatGPT发布之前，日本一度是人工智能领域的落后者。早在2017年，AI研究者、AI公司Ghelia创始人清水亮就严厉地批评过日本学界，说“日本的AI研究落后了世界30年”。2016年，清水亮应日本经济产业省邀请，策划日本AI学会全国大会的深度学习分会场，但给活动起名时，有同行提出异议：“如果名字里加上‘深度学习’的话，估计就没有人来听了吧。”

然而ChatGPT一发布，日本政府就表示要在政府内部大力推广ChatGPT，并且不会对人工智能训练中使用的数据实施版权保护，成为全球几乎第一个公开站队人工智能公司而非数据拥有者的国家。今年4月，日本首相岸田文雄访问美国时，也专门会见了微软和OpenAI的管理层。

这一系列措施炒热了东京的AI氛围。2022年，高宁离开投资行业，创建出海创业社区Linkloud，为初创企业举办线下活动和游学，目的地除了新加坡和硅谷，还有一个就是日本。

“我们每隔3个月会来一次东京，每次都会感觉到这座城市中AI的渗透率和讨论热度在不断加深。”他对《第一财经》杂志说。

眼下正热的是把AI与机器人结合起来的一个叫“具身智能”的领域。具身智能的最终目标是机器人可以像人一样，通过与物理环境交互，自主规划、决策、行动与执行。英伟达是这个技术的坚定支持者，3月它公布了人形机器人通用基础模型Project GR00T，并宣布和波士顿动力等机器人公司合作。而日本历来拥有川崎重工、发那科等全球顶尖的机器人巨头。2024年4月，微软宣布将在东京建立研究实验室，加强具身人工智能和机器人技术的研究。

就在不久前，高宁刚刚参加了在东京湾区举办的“永续高科技城市”（SusHi Tech Tokyo），这是一个由东京市政府支持的城市创新论坛。论坛上，以东京大学为首的日本高校在机器人领域表现十分强势。“机器人在日本是‘刚需’，需要用它们替代劳动力、应对人口老龄化。”高宁说。日本已将机器人广泛应用于农业、医疗、物流、制造等领域。

高宁认为，把人工智能用到金融、法律、零售、游戏领域的B端应用也有望在日本变得热门，因为日本虽然不是软件开发方面的强国，但在全球SaaS消费排行榜上，日本位居第二，仅次于美国，换言之，当地用户为软件付费的习惯和意愿足够强——这种习惯正是这一轮人工智能浪潮最需要的。

在基础模型和面向C端用户的AI应用方面，日本相关本土企业并不多。高宁对《第一财经》杂志称，目前日本较为知名的AI大模型公司只有Sakana.ai，这家人工智能公司位于东京，成立于2023年8月，创始人是Google前人工智能专家Llion Jones和David Ha——Llion Jones是Transfomer大模型的论文作者之一。

AI人才困境一直困扰着日本。2023年9月，日本财经新闻媒体《日本经济新闻》曾专门报道过日本AI人才短缺的问题。在AI领域的顶级国际会议“神经信息处理系统大会”（NeurIPS）和“国际机器学习大会”（ICML）采纳的日本理化学研究所论文列表中，一半的海外作者来自中国大学。用日本理化学研究所革新智慧综合研究中心负责人、东京大学研究所教授杉山将的话说，“虽说是日本发表的论文，却不一定是日本人写的”。

对人工智能这样的技术来说，没有人才就没有一切。城市的发展也是一样。

		自动登录	找回密码
密码			注册

大模型盘点

大模型盘点①｜MiniMax：做社区产品驱动的大模型公司

大模型盘点② ｜Haiper ：视频生成还在「GPT-2」阶段

大模型盘点③ |智元：想让所有机器人都接入智元的大脑

大模型盘点④ | AI科创之城，中国VS全球

浏览过的版块