近日,名为 DeepSeek(深度求索)的中国 AI 初创公司在短短 30 天的时间内先后发布了 DeepSeek-V3、R1、Janus-Pro 等多款大模型,火爆全网,持续引发热议。
每一款新模型发布当天,知乎都会聚集大量科技从业者答主展开丰富专业的分析讨论。
一起来看看大模型话题优秀答主@段小草 和英伟达 AI 计算架构技术总监@杨军 的专业回答吧~
国产之光 DeepSeek 把 AI 大佬全炸出来了,对 AI 行业竞争格局有何影响?
| 答主:段小草
今天在忙过年前最后的工作,刚看到这道题,简单提几句吧。
DeepSeek 这次引发的讨论度很大,而且这波讨论更多的是技术圈自发的讨论,PR 商稿的水分不多,我觉得这里面其实是很多种因素叠加在一起的。
第一点在于 DeepSeek 开源。
开源在当前是一种正义的大旗,OpenAI 的模型再强,大家也是雾里看山,OpenAI 从 GPT-3 开始就变成了彻头彻尾的 ClosedAI。
可以说除了引爆这一轮生成式大语言模型的浪潮外,给大家提供一个模糊的图景外,对开源社区几乎没有帮助。
而 DeepSeek 则不然,DeepSeek 不仅完全开源,而且放出了详细的技术报告;不仅开源了自己最大的 671B R1 模型,还「顺带手」帮大家蒸馏量化好了 1.5B~70B 多个尺寸的模型;不仅是面子上开源,甚至选择了最宽松的 MIT License 协议,允许任何人免费使用、修改、分发,包括用于商业用途。
国外很多人为 DeepSeek 举大旗,愿意拥护 DeepSeek 为真正的 OpenAI。
LeCun 在蹭 DeepSeek 热度的时候发了这么一篇贴子[1]:
对于那些看到 DeepSeek 表现出色并认为「中国在人工智能上超越了美国」的人,你们理解错了。正确的理解应该是:
「开源模型正在超越私有模型。」
DeepSeek 受益于开放研究和开源(例如 Meta 的 PyTorch 和 Llama)。他们提出了新想法,并在他人的基础上进行构建。因为他们的工作是公开发布并开源的,每个人都能从中获益。
这就是开放研究和开源的力量。
第二,DeepSeek 的训练成本出乎意料的低。
这一点来自于 DeepSeek V3 的技术报告中[2]:
DeepSeek V3 总训练成本为 278.8 万 H800 GPU 小时,仅 557.6 万美元。
这是什么概念呢?一个 Meta 的内部员工匿名爆料说,Meta 的生成式 AI 部门对 DeepSeek 感到恐慌,原因是他们随便一个管理人员的薪资就超过了 DeepSeek V3 的总训练成本,他们根本无法向高管解释这件事。
这也是一些人所说的,DeepSeek V3 很大程度上改变了大模型市场的根本逻辑,过去以为非常烧钱的现在发现未必需要。
而这背后是来自于 DeepSeek 在架构和 AI Infra 上的创新工作。
第三是 DeepSeek 模型的性能确实强。
模型评测具有相当的选择性,好用不好用也视使用场景而定,不能有某几个具体的问题去肯定或否定某个模型。DeepSeek V3 能赢 GPT-4o,R1 能赢 o1 也都是某些评测结果。
但我还是要说,考虑到 DeepSeek 免费提供使用,且 API 价格非常便宜,那么综合考虑用户使用成本,DeepSeek 的体验就是 T1 级别的。
这一点有大模型竞技场 Arena 佐证,不过由于 DeepSeek R1 的打分数据量尚少,所以其置信区间相对较大,也意味着成绩可能还不太稳定。
第四,DeepSeek 来自幻方量化而不是传统互联网大厂,更具理想主义气息。
DeepSeek 创始人梁文锋这几天也是关注的焦点,大家说他上新闻联播,翻出来他以前的发言逐字解读,颇有种造神的意味。
但 DeepSeek 相比于其他模型,确实商业气息更少一些,也更像一个小而美的研究机构,而非功利性的 AI 企业。这就天然地带来了话题上的反差,更容易引起讨论。
对于科研组织这一条,有几个方向可供展开。
一是和 OpenAI 特别是早期的 OpenAI,以及商业化后的 OpenAI 作类比,小而精的组织可以快速演进,快速发布,而不像大厂那样有商誉负担,比如 Google 早期研究出大模型后由于幻觉问题以及生成式 AI 对搜索业务的影响而影响了对大模型的研究决策,最终导致延迟发布,错失了先机;而 DeepSeek 现在被幻方包养,暂时没有营收压力,所以看上去也不会像 OpenAI 那样市侩功利。
二是 Meta 员工在匿名发贴中说,生成式 AI 部门本应是一个小而精的部门,但因为 AI 的热度被塞进来太多人而变得臃肿。组织的臃肿当然就会带来效率问题。
三是有人把 DeepSeek 比作幻方量化内部的 Skunk Works(臭鼬工厂)[3],强调其积极的创新能力。
第五,DeepSeek 来自中国。
同样一个模型,同样一句话,国内国外滋味截然不同。
美国现在已经明牌要挑起 AI 军备竞赛了,特朗普在宣布 5000 亿美元投资的星际之门时说,这些投资如果不流向美国,就很可能会流向中国。
这里非此即彼的竞争意味非常明确,不少人把星际之门解读为新星球大战计划。
不论是白宫对芯片的禁令,还是 OpenAI 等 AI 企业联合起来的呼吁,都在明确一件事,就是遏制中国的 AI 发展,确保美国的领先地位。
在这个关键时刻,中国企业做出了 DeepSeek,这对于国内来说就是很振奋的事情。叠加上前面讲到的 DeepSeek 训练成本极低,在一定程度上也削弱了对高性能显卡的依赖。
这对于美国来说是不可接受的。但是这件事的的确确真真正正地发生了,这有很有趣了,下一步走向会很微妙,也许 DeepSeek 会成为我们手中的关键一招。
| 答主:杨军