DeepSeek又一次在海外掀起巨浪,服务器短暂崩了!(2)

2025-01-27 16:38  证券时报

据媒体消息,DeepSeek回应称,今天下午(1月26日)DeepSeek确实出现了局部服务波动,但问题在数分钟内得到解决。此次事件可能与新模型发布后的访问量激增有关,而官方状态页未将其标记为事故。

DeepSeek让硅谷巨头不淡定了

据DeepSeek介绍,其最新发布的模型DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。

这一模型发布后,引发了海外AI圈众多科技大佬的讨论。例如,英伟达高级研究科学家Jim Fan就在个人社交平台上公开发表推文表示:"我们正身处这样一个历史时刻:一家非美国公司正在延续OpenAI最初的使命--通过真正开放的前沿研究赋能全人类。看似不合常理,但最有趣的结局往往最可能成真。"

在近日举办的2025年达沃斯论坛上,AI初创公司Scale AI创始人Alexandr Wang公开评论DeepSeek的新模型,表示"DeepSeek新模型的表现令人印象深刻,尤其是在模型推理效率方面。我们必须认真对待来自中国的这些发展"。他还同时直言,DeepSeek的AI大模型性能大致与美国最好的模型相当。另外一家知名AI创业公司、被称为谷歌杀手的Perplexity首席执行官Aravind Srinivas甚至直接评论称:"DeepSeek才配叫做OpenAI。"

DeepSeek这个AI黑马,在去年底发布DeepSeek-V3时就吸引了硅谷的目光,并因其低调的作风被称为"来自东方的神秘力量"。新模型发布后,硅谷巨头陷入了既兴奋又紧张的状态。一则来自Meta员工在匿名社区Teamblind的爆料称:"Meta的生成式人工智能团队正陷入恐慌。"帖子进一步爆料说,目前Meta工程师们正在疯狂拆解DeepSeek,试图复制其中的一切。"我不是在夸张,事情就是这么紧迫"。

同时,由于DeepSeek擅长"小成本办大事",通过采用创新架构和优化算法实现具有更高经济性的训练效果和更高效的推理。DeepSeek-V3的总训练成本仅为550万美元左右,是Llama-3405B超6000万美元训练成本的十分之一不到。该爆料帖还说,Meta管理层正面临严峻的财务压力,该生成式AI部门数十位高管,"每个人的年薪都超过了DeepSeek-V3的全部训练费用。如何向公司高层解释这种投入产出比,已成为他们的噩梦"。

不仅硅谷巨头深受震动,英美多家主流媒体也聚焦DeepSeek展开了专门的报道。比如,英媒经济学人指出,"目前训练一个美国大语言模型要花费数千万美元,而DeepSeek的支出不到600万美元。这种廉价训练正随着模型设计的发展改变整个行业,这可能导致更多针对特定用途的专业模型涌现,打破赢家通吃的市场格局。"