DeepSeek为何"震惊"硅谷?
受到规模定律(Scaling Law,即计算规模越大、训练数据量越多,模型越智能)的影响,全球AI大模型的开发长期以来陷入了一场关于顶尖人才、先进算力和巨额投资的"军备竞赛"。
各大科技公司大量囤积芯片以确保充足的算力。市场调研公司Omdia的最新报告显示,微软是英伟达的第一大买家,购买了48.5万块英伟达旗舰产品Hopper芯片,占后者过去一年收入的20%。Meta排第二,去年购买了22.4万块GPU;而亚马逊和谷歌预计分别购买19.6万和16.9万颗Hopper芯片。
然而越来越多科学家开始对堆数据、堆算力这一"大力出奇迹"的做法产生怀疑时,中国量化交易公司幻方量化(High-Flyer)旗下的人工智能初创公司DeepSeek横空出世,以"四两拨千斤"的方式快速突进。
而为了训练模型,幻方量化在美国芯片出口限制之前获得了超过1万块英伟达GPU,尽管有说法称DeepSeek大约有5万颗H100芯片,但尚未得到公司官方证实。
早在去年12月,该公司推出的DeepSeek-V3通过优化模型架构和基础设施等方式,展现了极致性价比。从该团队正式发布的技术报告来看,包括预训练、上下文长度外推和后训练在内,DeepSeek-V3完整训练只需2.788M H800 GPU小时,其训练成本仅为557万美元,但该模型实现了与GPT-4o和Claude Sonnet 3.5(来自美国人工智能企业Anthropic)等顶尖模型相媲美的性能。
当时著名人工智能科学家卡帕西(Andrej Karpathy)就发文表示,这种级别的能力通常需要接近16000颗GPU的集群,而目前市场上的集群规模更是达到了10万颗GPU左右。
尽管尚不清楚最新发布的DeepSeek-R1的训练成本,但其在服务价格上,相较性能相当的OpenAI的o1也有明显优势。DeepSeek-R1的API服务定价为每百万输入tokens 1元(缓存命中)/ 4元(缓存未命中),分别是OpenAI o1的2%和3.6%。
外界普遍认为,美国尖端芯片出口管制等限制并没有削弱中国的AI能力,反而似乎在推动DeepSeek等初创公司以优先考虑效率、资源池和协作的方式进行创新。
卡内基国际和平基金会的人工智能研究员马特·希恩(Matt Sheehan)表示:"美国的出口管制实际上将中国公司逼入了绝境,它们必须利用有限的计算资源提高效率。未来我们可能会看到大量与计算资源匮乏相关的整合。"
中欧国际工商学院决策科学与管理信息系统教授谭寅亮曾在斯坦福大学人工智能研究院和数字经济实验室担任访问学者,他对第一财经记者表示:"对华的芯片管制从未停止,而中国的企业创新也没有因此停滞。Deepseek团队的成功很好地印证了这一点。"