记者:吴洋洋编辑:王杰夫
全球大模型已以短跑速度连续赛跑了19个月,目前我们正处在AI从深度学习向强化学习、从软件应用向硬件设备进化的新节点。在此,我们挑选来自基础模型、视频生成和人形机器人领域的代表公司案例,盘点中国人工智能进程。最后一篇还将关注全球AI人才,欢迎假期期间持续关注。
除了模型参数量、数据量、计算量可以scale,模型支持的文本长度其实也可以scale。
社区是所有互联网产品里最难做的,它需要一步一步演化,不会一蹴而就。
我们开始投放的那一天,就是用户留存的飞轮可以转起来的时候。
8月31日,MiniMax发布了旗下首个文生视频模型abab-video-1,成为继快手、字节跳动、智谱等之后又一家拥有视频生成模型的中国人工智能公司。该模型可一次性生成长度为6秒的视频。MiniMax在发布会现场展示了一段以「魔法硬币」为主题的视频,这段视频长达1分55秒,并且具有音效。MiniMax称,该视频完全由AI生成,未经修改,不过生成是多次分段完成的,音效则由MiniMax旗下的语音大模型完成。
至此,MiniMax拥有了从文本到语音、视频生成的模型布局。MiniMax创始人闫俊杰在发布会后接受包括「新皮层」在内的多家媒体采访中称,之后还将陆续推出「图生视频、文+图生成视频、可编辑的可控视频生成」等模型或功能。
7月初的世界人工智能大会(WAIC)上,闫俊杰就预告了这一新模型的发布计划。之所以现在才真正发布,闫俊杰称他们这两个月里一直在忙于解决视频生成的稳定性问题,因为与文本相比,视频天然地包含更多token,而如何更高效地处理长序列token是个挑战。他们发现解决长序列token问题的方法——Linear Attention(线性注意力),也能复用到文本模型中,使得文本模型拥有更长的记忆力,这种记忆力对于提升用户与AI互动时的黏性有帮助。
作为头部大模型厂商中少数坚持依靠产品和技术「两条腿」走路的公司,闫俊杰在abab-video-1发布后的媒体群访中首次集中回应了外界对于MiniMax「擅长产品,不擅长技术」「产品在海外比在国内更成功」「海外陪伴型明星产品Character.AI已加入Google旗下,星野怎么办」等争议,以及MiniMax如何在产品和技术之间分配资源、什么样的技术才值得投资、如何看待AI应用热衷「投流」等问题。
闫俊杰称,星野既不是一个类似ChatGPT的聊天机器人,也不是Character.AI那样的陪伴型产品,而是一个内容社区,差别是聊天机器人和陪伴型AI都仅限于用户与模型之间的互动,星野则希望用户不仅使用平台提供的AI工具创作内容,更能基于这些内容互动起来,从而形成类似于小红书、抖音、B站等社区的形态。
因此,相较于通过投流快速获得大量「没有忠诚度」的用户,MiniMax更愿意把钱花在通过技术创新提升产品的好用性,从而提升用户黏性上,而有黏性的产品被认为能够反过来驱动技术不断创新最终实现AGI。Linear Attention就这种技术与产品的相互促进逻辑的产物之一。根据闫俊杰在发布会上提供的数据,除了带来更强的记忆力,Linear Attention还能大幅降低模型的计算时间,因为从用户体验角度——快某种程度上就是好。
以下是MiniMax创始人闫俊杰(花名IO)、MiniMax国际业务总经理盛静远、MiniMax技术总监韩景涛与包括「新皮层」在内的媒体交流记录,为方便阅读部分内容经编辑整理。
Q:MiniMax为视频生成模型规划的商业变现路径是什么?最近《黑神话·悟空》很火,游戏会是一个场景吗?
闫俊杰:视频方面我们这次确实取得很大进展,我们内部评测,包括外部也跑一些分,应该比国外的Runway有更好的效果。不过今天发的只是我们的第一版,很快还会有更新的版本。我们的策略是到了一个更加满意的状态之后,再考虑一些商业化。
我们整个公司的商业化基本上分成两种形式,一个是开放平台,现在已经有2000多家客户,包括很多知名互联网公司,也包括传统企业。第二点,我们的产品里面也有广告机制,广告本来就可以做商业化变现。我觉得目前阶段最重要的还不是商业化,而是把技术真正做到广泛可用的程度。
关于视频生成跟游戏的关系,正好3天前Google DeepMind发了论文。游戏引擎做场景渲染原本需要每个东西都提前建模,而DeepMind的AI游戏引擎可以基于用户的实时状态通过实时生成视频的方式建模,这个效率就非常高,互动性也变得很强。当然《黑神话悟空》还是传统的建模渲染方式,但基于视频生成的方式至少提供一种可能性,并且原则上来说上限会更高,基于渲染的方式,进步速度已经很慢了。长期看,进步越快的东西越好。
Q:今年视频生成赛道非常激烈,MiniMax为什么要做视频生成?这对你们整个布局有必要性吗?
闫俊杰:我们一直以来的目标就是要做多模态的输出,这也是没有哪家大模型公司声音模型做得很好的时候,我们的声音模型做到最好,今天我们把视频也做得非常好。本质原因是一个基本的道理,我们每天看的大部分内容都不是文字,而是一些多模态的东西。你打开小红书都是图文,打开抖音都是视频,甚至你打开拼多多买东西,大部分时候也是图片,字在里面占的比例并没有很高。
为了让产品有非常高的用户覆盖度、使用深度,唯一的办法是能够输出多模态内容,而不是只输出单纯的基于文字的内容,这是一个非常核心的判断。只是我们先做出来的是文字,又做出来声音,其实很早就做出来了图片,只是现在技术变得更强,就把视频也做出来了。这个路线是一以贯之的,一定要做多模态。
Q:后续迭代是往哪个方向?
闫俊杰:方向包括数据、算法本身,以及更加方便用户使用的细节,比如现在只提供了文生视频,那图生视频、文+图生成视频、可编辑的可控视频生成……这些都会陆续出来。
Q:MiniMax生成视频的算法与同行有什么不同?
闫俊杰:我们推出比可灵(快手推出的视频模型)要晚一两个月,核心原因是我们在解决一个更难的技术问题,即如何保持稳定性。这件事情为什么这么难?在训练视频生成能力的过程中,需要先把视频变成一些token,这些token会非常长,token越长复杂度就越高,而我们的算法的特点能把复杂度往下降低一些,让压缩率变得更高。这个事花了我们很多精力,所以晚了一两个月。不管是视频、文本、声音等模型,核心的东西都不是说找一个算法提升5%、10%的效果就够了,而是要让效果提升几倍。如果能提升几倍就一定要做出来,如果只提升5%就不太值得做,这是我们做研发的思路。
Q:MiniMax这次视频模型训练中选择Linear Attention(线性注意力)方案的决策是怎么作出来的?这次预判和实践对MiniMax发展来说有哪些意义?
韩景涛:我们还是比较坚信Scaling Law(规模定律),scale可以理解为一种多个维度的缩放,很多人最简单地会觉得是参数量越来越大是一种scale。其实还有一个隐藏的、被重视不那么多的scale,就是context length(文本长度),也就是说除了模型参数量、数据量、计算量可以scale,模型支持的文本长度其实也可以scale。传统的Transformer相当于一个n次方复杂度的self attention(自注意力)的计算,如果一定要是n次方的话,模型支持的文本长度永远不可能scale得特别长,8k或者10k token的上文,大概就是这一代硬件的技术瓶颈了。
我们想把自注意力做得更大,不管是原理还是实际应用上,就像跟星野这样的智能体聊天,我们肯定不希望星野的NPC只能记住最近8000字的内容,这对用户体验肯定损伤很大,如果能scale到8万字、80万字、800万字……肯定能做出更不一样的产品。
为此我们探索了一段时间,因为scale的维度很多,我们在不同方向还要做不同的组合,有时候全部做可能最后效果不一定会特别好,必须有研究顺序和取舍。探索中我们发现有一个长的记忆、长的context length(文本长度)是非常重要的,也是非常实用的。我们就从这两点出发开始探索,如果一直用之前的旧算法,𝒪(n^2)一定会限制我的scale(注:传统Transformer中注意力机制的计算复杂度与输入长度呈平方关系)。那个时候我们就想探索得极端一点,能不能找一个𝒪(n)级别的算法(指线性级别,表示算法的执行时间随着输入数据规模的增加而线性增加),因为𝒪(n)的scale性天然很好,计算复杂度非常低,尤其是文本越长优势越明显。
从这个角度看,Linear Attention(线性注意力)就是个很有效的方法。Linear Attention在学术界很早就有了,至少三四年前就有一些不是很成熟的工作。只是有些人可能相信它,有些人不是那么相信它。我们一开始遇到很多工程上的瓶颈,但是研究到现在我们觉得对Linear Attention的驾驭到了一个比较好的、可以用它的状态了。闫俊杰:总结起来,核心还是快。不管是做MoE(混合专家模型)还是Linear Attention,或者其他的探索,本质上还是要更快,这是我们觉得本质的东西。快意味着同样的算力可以让模型变得更好,这个是我们做研发最底层的思路,除了Linear Attention、MoE,可能还有一些其他比较有价值的事,我们也在探索。
Q:做视频模型的挑战和难点是什么?
闫俊杰:首先这件事还挺难的,如果不难,不会全球只有两三家公司能做得很好。难点在于做出有些独特的东西,有些可以复用的东西。
独特的东西在于视频的复杂度比做文本更难,因为视频的token量天然更大,比如一个视频就是千万token的输入和输出。其次,视频量很大,比如看一个5秒的视频,这个5秒的视频就有几兆,但是5秒看的文字只有100个字,可能都不到1k,这是几千倍的存储差距。里面的挑战在于,之前基于文本建的底层基础设施怎么来处理视频数据,怎么清洗视频数据,怎么来标注,对视频都不太适用,意味着基础设施也需要升级。
主要是这两个挑战,还有的话就是耐心,做文字有很多开源的东西,如果基于开源来做自己的研发会更快,做视频开源的东西没那么多,做出来其实很多东西越来越需要从头做,需要付出的耐心也更大。
Q:MiniMax的声音大模型和视频大模型如何解决数据问题?
闫俊杰:数据方面,中国还是有比较好的措施,在国家层面还是有很多政策出来,在上海就有一个公司可以以政府的组织形式有很多非常高质量的数据,并且可以把数据开放给技术公司,这些数据完全没有版权问题,对尤其像我们这样的创业公司帮助非常大。
我们自己也会采购第三方数据,也有一点不知道该怎么判断,海外很多人质疑OpenAI是不是使用了其他数据,这个似乎是没有一个明确定义的模糊地带。对我们来说,尽可能地用比较符合版权的数据,我们只能尽可能往这个方向努力。
Q:你演讲的时候说自己花了两年时间才意识到技术是最核心的要素,其实MiniMax成立也不久,公司最开始成立的时候你最关心的是什么?什么样的原因让你意识到技术才是最重要的?
闫俊杰:我们成立了两年多,应该不是说我花两年才意识到技术的重要,而是说一直都觉得技术重要,但是觉得它重要,跟说100%地认为它重要,这个其实需要一个过程。做技术是一件非常奢侈的事,这件事甚至只有创业的时候才会理解,因为技术具有不可预测性,做技术可能会失败;其次,做技术的研发投入很大,如果看一眼每个月的账单我还是会非常心疼的。技术研发是很奢侈的一件事,当一个东西很奢侈的时候,很多时候就会想要不要走点捷径?比如说不做技术了,可不可以先把产品提升好或者是怎么样?
做技术还有一个比较容易犯的错误,就好比一个东西要试验三次才能成功,第三次真的试验成功的时候,又在想前面两次是不是可以不用做。比如说你吃包子吃三个会吃饱,就会想是不是前两个不用吃也是一样的。有时候就会想要不要走点捷径,我们的实践经验就证明,走捷径的时候就会被打脸,这个事已经发生好多次了,我猜可能已经超过十次了。我说的这些是负反馈。
很多时候也有正反馈,当你真的把一些技术突破之后,又能非常显著地感受到用户或者客户对你的认可。不管正反馈还是负反馈,最终发现都是技术带来的。我还是比较庆幸自己一直是一个做技术的人。
Q:今年行业里面出现了很多「期货」,你怎么理解现在行业技术进步的节奏?
闫俊杰:这点我自己还是很坚定的,虽然我们今天才更新视频模型,实际上两个月前我就知道今天可以更新视频模型,那个时候的实验结果已经能够预测出来,在今天我确实能够做出来。语言模型也是一样的。
行业核心变革可能不是GPT-4或者GPT-4o或者GPT-4o mini这种东西,也不是Claude3或者Claude3.5 sonnet,也不是我们之前做了一个MoE的什么模型,这里面真正重要的事情是,现在所有模型错误率都是20%的量级,都有两位数的错误率。真正的变革是在什么时间点有一个模型可以把错误率降低到个位数,这会是一个非常本质的变化。
为什么是非常本质的变化?首先是数量级的提升,其次是说这个变化确实可以让很多复杂任务从不可做变成可做,因为复杂任务需要多步规划,多步就需要好多步「乘」的关系,错误率高的模型就没办法乘起来。这就是为什么现在没有agent可以应用的原因,因为GPT-4这样的模型没法支持非常灵活的agent。不是因为agent的框架写得不够好,而是因为模型本身不够好,这是一个最根本的原因,也是为什么我们自己之前尝试过agent跑不通,GPT-4出了GPT Store也跑不通,本质原因不是因为产品做得不好,就是因为底层模型不够好。什么时间点会出来一个错误率能够降低10倍的模型?现在显然是没有的,至少没有公开。
但是可以看到现在每家公司都有了算力,且算力比GPT-4刚出来的时候多了有可能不止4倍。算法很显然也在进步,OpenAI 2023年只能做出来GPT-4,现在能做GPT-4o,虽然性能差不多,但速度快了可能10倍,意味着算法也进步了。计算量多了不止10倍,算法也快了10倍的时候,没有道理训练不出来一个更好的模型。
我的判断是,如果Scaling Law是对的话,这个模型一定会出现,标志就是错误率变成个位数,只是不知道什么原因还没有人把它真正地发布出来。
Q:你眼中的AGI是什么样的?或者说你是怎么确定AGI信仰的?
闫俊杰:我们认为的AGI可能不是一个很高大上的东西,而是能够变成每个人生活中的一部分,比如我们看抖音或者微信公众号的时候,不会觉得那是基于推荐算法做的内容分发平台,大家就只觉得是抖音、微信。我的意思是这些产品背后也是硬核的算法,但是这些产品本身已经变成大家生活中的一部分,我觉得对AGI也是一样的。当大家觉得一个东西不是AI的时候,当它变成大家每天都在用的一部分的时候,就跟用手机一样,我觉得AGI就实现了。这需要很长时间,但是我觉得可以一步步努力。
Q:如何看待Character.AI被收购,以及陪伴类AI的发展前景?
闫俊杰:解释一件事,我们的产品星野的底层设计其实不是陪用户聊天,而是一个内容社区。里面可以有一些用户创建的一些角色,包括现在我们也提供了更复杂的工具,让用户可以在里面创建故事、创作世界观;同时另外一些用户也可以根据创造的世界观进行互动,很类似小说这样的交互体验。核心是内容社区,而不是陪一个人来聊天,这事有fundamental(本质上的)不同。对用户来说,我们不是把一个模型给到用户,比如说在ChatGPT里面,你用ChatGPT和另外一个人用ChatGPT,如果你们输入相同,输出应该是一样的,或者应该是近似一样的。这个产品体验主要是来自模型。
我们在星野这个产品里希望做到的是个性化,并且很多输入来自用户。比如在星野里有很多其他用户的创作,你在这个产品得到的体验不完全来自模型,也来自另外一些用户的创作,这个是我们认为的一个比较核心的区别。中国公司还是比较容易能做好产品的。
关于Character AI被收购,这是一个比较好的结局,似乎每个人都在里面得到了好处。
Q:星野如果是个社区,现有社区产品中哪个跟它比较接近?星野和海螺的用户画像分别是什么样的?
闫俊杰:星野是一个很独特的内容平台,是完全基于AI的一套内容社区,这个事在全球范围都是挺独特的。一个客观情况是社区产品会同时存在多个,抖音、小红书、B站、知乎都分别是社区,至少在AI内容社区这件事上,星野还是做得比较靠前。里面的AI本质上是一种新的内容交互形态。星野的用户画像以二三线城市为主,年龄在17至25岁之间。海螺的用户画像更泛一些,海螺本来就是工具型的产品。
Q:但不少用户还是会把星野或者Talkie(星野海外版)当成陪伴型产品,而且他们觉得跟虚拟角色很难进行深度聊天,用户就会流失,你们怎么解决这个问题?
闫俊杰:现在确实有这样的问题,本质上就是模型不够好,当前模型没有很长的记忆,理解不了特别复杂的指令就会这样。这也是为什么我们要让我们的模型变得更强,理解能力变得更强,能够处理无限长的输入跟输出,有更多的模态,这里面也包括更多的创作者激励。社区是所有互联网产品里最难做的,它需要一步一步演化,不会一蹴而就。10年前的B站跟现在的B站显然不太一样,10年前的B站还是金坷拉那些东西,但现在的B站有很多AI的内容,有非常多的知识,各种各样的东西,其实就是这么一个演化的过程。
Q:最近快手也推出了「飞船」,产品风格有点类似于星野,星野的壁垒是什么?
闫俊杰:类似产品除了快手有,字节也有。这整体还是一件好事,比如中国有些发展很好的行业,像电动车、手机、移动互联网,都有好几家公司进行了非常激烈的长期竞争,最终使得中国的产品全球领先。历史上很多行业都是这样的,既然历史是这样,大模型又有可能产生很大的社会价值,那么确实也应该有很多的竞争。这个事就是发展的客观规律,作为一家小的创业公司,如果我们在竞争中打不赢,那我们就应该被淘汰,就应该关掉,其实也没有其他的选择。
这一定程度上让我们开始意识到,有很多大厂竞争对手,好处是可以让我们很快地看清一些非常底层的东西。假设没有这些大厂的竞争,可能你不会知道买量是不是重要。但当开始意识到那些比你大好多倍的公司都开始跟你竞争的时候,你就意识到买量是没用的,因为这个能力大厂比你强百倍千倍,我们能做的就是把我们觉得有可能变强的事无限地放大,有两点:一是技术如何提升,二是如何跟用户更好地共创。只有这两点都需要一些非常关键的判断和长期的积累。
Q:这两样东西目前MiniMax有吗?
闫俊杰:我们现在还很小,我觉得还需要足够长的时间。像电动车,电动车从不被看好的「造车三傻」到后面的状态也是过了好几年,像理想第一款车就失败了,第二款车理想ONE才成功,也是经历了四五年,还是可以有一些耐心。
Q:你们把80%的算力和资源放到了模型上,未来大模型的研发还会保持这样的水准吗?大模型和产品之间的资源分配怎么做?
闫俊杰:这是一个很难的事,对创业来说一块钱要分成几瓣来花是非常难的。对技术来说,包括我从读书的时候,到工作,到现在创业,对技术的理解慢慢变得非常简单。第一性原理是这样的,技术——特别是做很大研发投入的技术,追求的东西不应该是10%的提升,如果一个技术的提升只有10%那这个技术不应该做。原因是你不做也会有人开源出来,或者也会有其他人做,其实根本不需要自己来研发。
一家像我们这样的创业公司,真正应该花钱做的研发是那种能够带来几倍变化的技术,这种东西很多时候如果我们自己不做,外面也没有,对我们满足用户的需求又很重要,但是又没有人做,我们只能自己来做,这样的东西才是比较核心的东西。不管是我们现在还是再往后看,我们在什么样的技术方向上最愿意花钱,核心判断是我们认为这个方向做出来能不能带来几倍的变化,如果能的话不管多难都要做出来。如果不满足这个标准,不管多简单我们都不应该做。
Q:每家大模型公司都说自己的技术很厉害,外界该如何判断呢?
闫俊杰:技术好坏怎么判断这个事很难,不光对媒体朋友难,对我们自己也难。举例子,我们做出来一个模型,或者做一个技术改进,怎么知道这个改进是不是对的?怎么来评估?或者把大模型当作一个人,你怎么判断这个人是不是好人?其实也很难判断。我觉得可能不是大家的知识不够,其实本来就难。
我们也经历过,当我们的评价标准不够好的时候,模型迭代有时候也会误入歧途,你的迭代会优化你认为对的指标,如果指标本身不对,迭代可能就错了,我们经历过很多这样的事。
最终怎么看一个模型好不好?我只能说我们目前用的方式,有可能也不是对的,至少我认为比较可能的方式是这样的,我们的开放平台有3万多个企业客户和开发者,里面有些客户对他们的场景非常看重,要求我们一定要保证他们的产品的效果,我基于这样的场景构建了一个测试集,是真实使用的测试集,并且是来自很多家的客户的真实使用。这个测试集我觉得还是比较客观的,原因是这个测试集上所有的国产模型都比GPT-4差得很多。
很多大模型公司的排行榜上GPT-4基本上都要排到中游去了,但是在我们的排行榜上GPT-4o还是排在最靠前。包括我们的模型在内,所有的模型都跟GPT-4有本质上的差距,而且越难的问题差距越大,这个是我们的评估方式。至少按照这个评估方式来看,我觉得我们的提升空间还是挺大的。
这个事每个公司有自己不同的思考。核心就是看你要什么,如果认为Query(调用量)重要就应该无限地「投流」;如果认为Query的量跟模型的效果是对数的关系,不是线性关系,那投流的价值就没那么大;如果认为商业化重要,就应该只要产品ROI能转正就无限地投流。这里面的核心不是投流本身,核心是一家公司要的那个东西到底是什么,这个东西我觉得不同的公司有不同的判断。
「我们开始投放的那一天,就是用户留存的飞轮可以转起来的时候」
Q:你们怎么看AI出海这个市场?
闫俊杰:其实我们国内用户量不比海外小,但是我不太知道为什么大家都只觉得我们出海做得好。还有就是其实我们的技术非常领先,但大家总觉得我们产品做得好,我不太理解为什么会这样。
盛静远:所有大模型公司里面唯一有非常大国际出海业务的其实就只有我们家,这里面有一些运气,更多的是我们在做这个产品之前有非常深的思考。其实任何伟大的C端产品都要基于对人性的深入思考。
我们很早就做了一款产品GLOW,是最早的基于生成式AI的社区,这个产品问世比Character AI还要早,包括今天展示出来的闫总2021年12月在白板上写的「闲聊」,还写了《底特律:变人》,以及AI在高容错率的情况下可以做到什么,一步一步把产品变成了全球人民喜闻乐见的东西,是一个我们在创业之初就进行了深度设想的产品。这个产品我们只做了英语版(海外),在国内是星野社区。两个产品一开始是一套班子,放到海外之后发现全球各地二三十个国家不同语言的人都开始玩我们的产品。
闫俊杰展示他2021年12月开始创业时在白板上写下的计划。
早期Character.AI比较有名,它的核心团队被Google收走之后,我们成了赛道的扛大旗者,而且我们在做的事情是不断地破圈。就像闫俊杰总在说的,我们做的不是一个陪聊,也不是一个AI的情感陪伴,而是新一代的内容生成平台。就像上一代伟大的toC产品,无论是短视频,还是再之前的产品,在技术创新的关口都会出现一些新的突破,新的搅局者可以入局。
短视频是因为手机有了摄像头,存储技术的突破让每个人都变成了视频创作者。今天有了AI,我没学过音乐都可以变成一个音乐创作者,我不会做皮克斯的动画,但我今天完全可以写一句话然后做出皮克斯的动画。我们的多模态AI能让全世界的所有人都变成更强更厉害的创作者,释放他们的创作能力,之后在线上平台把他们创作的内容,无论是一个可以交互的智能体,还是一段很酷的视频都放在Talkie或者星野的平台上,甚至是之后更多的产品。所以它很有可能成为一个很大的现象级的产品。
Q:MiniMax在海外市场具体是如何布局的?整体商业化表现如何?
闫俊杰:去年中国这些模型在海外是完全没有竞争力的,接下来中国出现了百模大战,包括价格战,这些东西客观来说还是带来了很多变化。比如,我们非常惊人地发现大模型打响价格战之后,有很多非常传统的企业开始愿意使用大模型,它们的领导者觉得反正成本低,出错也不要紧,出错了多调用一次就好了。客观来说,这非常大地提高了模型的调用量。
正是因为竞争这么激烈,推动大家必须得把模型做好,到一定阶段之后,就会发现模型在海外也有竞争力了,比如在东南亚或者其他地方,之前大家觉得必须得用GPT,但是GPT在语言上的支持其实也不够好,国内模型正是经过这么激烈的竞争,push大家一定要往前赶,至少目前已经可以赶到至少在非英语国家的语种上,能够达到跟GPT不相上下的水平,就像在中文上很多时候也能够到不错的水平是一个道理。
对我们来说,竞争无法避免,既然无法避免就努力做到最好,我们看到乐观的一面,国内大模型的使用量确实在显著增长,并且中国模型在海外确实越来越有竞争力,这我觉得是两个积极的变化。
Q:MiniMax目前在国内做商业化落地的难点有哪些?你认为是什么原因导致的?
闫俊杰:当一个产品没人用或者不赚钱的时候,肯定是不能怪用户的,大部分时候只能怪自己的技术做得不够好,或者产品做得不够好。前段时间还有个新闻特别火,虎嗅讲互联网30年收获那个对我还是挺有启发的。比如QQ在2000年的时候也不知道该怎么赚钱,尝试无数的商业化变现方案都失败了。但是最终找到了移动增值业务,慢慢又找到了游戏,才开始变得很大,商业化都会经历这么一个过程。
商业化对整个行业都是考验,如果能够通过就能够出来,如果通不过确实应该关掉,这个事就应该客观面对,肯定不能怪用户,也不能怪生态,只能怪自己做得不够好,至少我们目前是在努力的,这是我唯一可以做的事。
Q:toB业务的ROI问题怎么解决?
盛静远:我分国内国外来讲。我自己的背景以前是投资人,在硅谷十几年,在中国也是投toB行业,其实不同的行业长成今天的状态有它的底层规律,toB行业真正要赚钱是要能够成为行业标准,近乎垄断。我不想用这个词,但是偏垄断性质的产品才能收到大家的问询,就像微软这样的软件,没有其他替代,所有大企业都愿意为此付费。在国内更加卷的竞争市场中,toB业务很多都变成了项目制,大模型如果靠纯技术输出,为每家企业进行定制,这个商业模式就转不过来。我从投资人的角度可以很明确地说,它变成了一个不成立的商业模式。
国内市场的to B或者工具类产品,我们现在的思考是把自己偏工具类的产品,比如海螺,打磨出新的功能直到有用户黏性,让它也有市场区分度,具体有些功能我先不透露。我们所有产品都会结合技术能力推出一些能增强用户黏性的功能,黏性建立起来后,我们才会考虑ROI和retention(用户留存),这个飞轮转起来了,我们再去投放,而不是像很多友商,把非常大的资源和金钱真金白银砸进去。普通消费者对今天的产品形态是没有任何忠诚度可言的。它一收费我就可以换到另外一个产品,这个商业模式是不成立的。这个ROI是会有转起来的一天,但不是今天的产品形态。大家可以期待一下在国内的工具市场我们开始投放的那一天,那可能就是我们觉得这个产品的retention可以转起来的时候。
海外市场不太一样。讲一个小例子,我们的声音产品不是一个特别大、特别fancy,是个跟视频产品没法比的东西,但它的商业化前景巨大。只有十几个波兰人做出了ElevenLabs这个产品,非常多的游戏公司、广告公司、有声书、时代杂志基本上就是用它小小的模型把文本变成了英语,它的Text2Speech技术做得比较细腻之后,就有非常多的企业用户愿意付费,为之买单。
我们声音产品的能力绝对是在国际第一梯队。海外用户付费习惯很好,用户都愿意每个月花5美元或者10美元进行订阅,这个习惯很普遍,在我们的产品够好的情况下,就可以在海外进行这种类型的推广。对我们来讲,现在技术完全到位了,更多是公司的精力和资源分配,以及怎么把东西变现的问题。海外市场有一套自己的打法,会相对比较直接,变现也更快。
Q:投资人对MiniMax有什么期待?他们更在乎商业化进展还是技术方面的进展?
闫俊杰:实际的情况是投资人不是一个人,投资人是一个组织,一个组织就意味着大部分时候没有一个统一的观点。我们还是一家很小的公司,公司有各种各样的数据,尽管我认为已经提升了很多,在某些领域里面有些优势,但相比这些大公司非常成熟的业务来说,占比还是非常小的,甚至可以说不值一提。这里面的核心也不是投资人们怎么看,核心还是我们自己怎么样做得更好。
Q:之前MiniMax拿美元基金的钱比较多,现在美元基金在萎缩,如果融资困难的话,你会做哪些应对?
盛静远:整体来讲一家公司真正的价值在于自身创造的商业价值,虽然我们是一家大模型公司,无论从花钱的角度、训练的角度,闫总的宗旨一直是一枚硬币掰成三枚花,今天讲的「快就是好」,也是在同等算力的条件下,尽可能训练更多的轮次,训练更大的数据,就是通过我们自己去做一些科研上比较有挑战的事。铺张浪费型的训练方式,我们没法照搬。
作为所有中国大模型公司里面少数几个能讲商业化、能讲变现、能讲产品跟模型一起驱动,甚至很有可能在比较短的时间内实现自负盈亏以及盈利的公司,这样做是最可持续的方式,而不是去想还有哪些钱可以来投我们。我们不是一家只做产品的公司,产品是技术突破的体现,产品能够通过商业化反哺后续的技术投入,这是公司真正转起来的标志。可能我们现在是正在半山腰的状态,如果做得比较成功,很快就能达到一个正向循环。