金融时报也发布了题为"中国一家小小的AI创业公司如何让硅谷感到震惊"的文章。文章中说道,"R1模型的发布在硅谷引发一场激烈辩论,主题是包括Meta和Anthropic在内资源更雄厚的美国人工智能企业能否守住技术优势""DeepSeek没有从外部基金筹集资金,也没有采取重大举措将其模型商业化。DeepSeek的运作方式就像早期的DeepMind,专注于研究和工程"。
股民也焦虑:DeepSeek利空英伟达?
在Mera员工爆料的匿名社区Teamblind上,证券时报记者发现已有多个帖子在讨论DeepSeek,除了模型成本与性能等方面的技术讨论,还有股民发起了题为"英伟达是否应该为DeepSeek感到担忧"的投票。帖子还给了一些"前情提要",提示DeepSeek仅用不到600万美元在性能没那么强的GPU上训出了V3模型,效果直逼Meta的开源模型Llama,而且最新发布的R1模型足以媲美OpenAI的o1模型。
事实上,自去年底DeepSeek发布V3模型后,业界就关注到,DeepSeek的成功,背后的更大意义在于可以通过软件优化,在有限的硬件资源下实现顶尖的模型性能,减少对高端GPU的依赖。有观点认为,DeepSeek-V3极低的训练成本预示着AI大模型对算力投入的需求将大幅下降,这无疑将利空全球AI算力的核心供应商英伟达。
据证券时报记者了解,大模型主要分为训练和推理两个阶段,训练是指用大量数据训练大模型,通常需要极高的计算能力和存储资源;推理是指将训练好的模型应用于实际任务(如提问并生成文本、识别图片与视频等)。这二者采用的是不同的芯片,过去两年各大厂商都在加紧训练大模型,算力主要体现在训练阶段,而其中模型训练是英伟达GPU的优势所在。但随着模型基本训练成型及AI应用的爆发,算力的增长或将更侧重于推理侧。
同时,DeepSeek不仅将模型训练成本大幅降低,而且发布的新模型R1也同步开源模型权重,公开了完整训练细节,挑战了闭源系统的优势。随着DeepSeek将AI大模型技术及使用门槛降低,有市场人士担忧,DeepSeekR1的崛起可能会削弱市场对英伟达AI芯片需求的预期,对英伟达的市场地位和战略布局产生影响。
不过也有观点认为,DeepSeek只计算了预训练的算力消耗,但数据配比、合成数据的生成和清洗等方面也需要消耗大量算力。同时,训练成本的降低未必意味着算力需求下降,只代表模型厂商可以使用性价比更高的方式去做模型极限能力的探索。中信证券研报也指出,DeepSeek-V3意味着AI大模型的应用将逐步走向普惠,助力AI应用广泛落地,同时训练效率大幅提升亦将助力推理算力需求高增。