找回密码
 注册
搜索
查看: 157|回复: 0

陆最新AI技术「神速突破」! 爆硅谷巨头吓到崩溃 员工陷恐慌

[复制链接]
发表于 2025-1-26 09:08 PM | 显示全部楼层 |阅读模式


2025/01/27 中时新闻网 吴美观



陆企DeepSeek发布最新AI模型,令硅谷AI巨头震惊。 (示意图/达志影像/shutterstock)

大陆AI新创企业DeepSeek(深度探求)近期推出「DeepSeek-V3」与「DeepSeek-R1」两款最新的AI模型。 这两款模型具备低廉的制造成本,且采用运算能力相对低阶的英伟达H800芯片,却拥有与全球顶尖AI语言模型匹敌的表现(例如OpenAI的ChatGPT-4),让硅谷巨头相当震惊。

陆媒《观点财经》报导,据美国匿名职场论坛TeamBlind上一位自称Meta员工的贴文,自DeepSeek发布DeepSeek-V3以来,Meta旗下的Llama 4在各项测试中落后,让公司的生成式AI部门陷入恐慌。 更令人忧虑的是,这间鲜为人知的中国公司仅耗资557万美元(约台币1.8亿元)就达成这项技术成就。

该Meta员工指出,公司内部生成式AI部门的高管薪资都超过 DeepSeek的开发成本,而Meta目前拥有数十位此类高管,令人质疑部门庞大成本的合理性。

该员工透露,目前Meta工程师正疯狂研究分析DeepSeek的成功秘诀,试图复制任何可复制的技术。 然而,当DeepSeek-R1发布时,情况变得更加严峻。 该员工表示,虽然无法透露具体细节,但一些信息将很快公开。

DeepSeek-V3于去年12月26日发布后,随即成为开源模型的领头羊。 DeepSeek公布的技术报告数据显示,Meta的Llama 3.1-405B仅在MMLU-Pro大规模多任务理解数据集上接近DeepSeek-V3的水平,而在其他项目中表现几乎都不及八成。

今年1月20日,DeepSeek 正式发布DeepSeek-R1,官方技术报告中的对照模型,仅包含OpenAI公司的闭源模型OpenAI o1以及自家模型DeepSeek-v3。 在前次DeepSeek-V3测试中被拿来做对照的Meta、Anthropic等公司模型在本次报告中已销声匿迹。

在成本方面,DeepSeek-v3总计耗费了278.8万个GPU小时,使用2048 片辉达H800 GPU,耗时约两个月完成训练。 相较之下,Meta公司的开源模型Llama 3.1-405B则耗费3080万个GPU小时,成本是DeepSeek-v3的11倍,甚至OpenAI公司的GPT-4o模型训练也耗资1亿美元,与DeepSeek-V3的557万美元训练成本差距甚大。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|www.hutong9.net

GMT-5, 2025-5-12 12:23 AM , Processed in 0.049503 second(s), 15 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表