另据媒体报道,为了训练模型,幻方量化在美国芯片出口限制之前获得了超过1万块英伟达GPU,尽管有说法称DeepSeek大约有5万颗H100芯片,但尚未得到公司官方证实。
早在去年12月,该公司推出的DeepSeek-V3通过优化模型架构和基础设施等方式,展现了极致性价比。从该团队正式发布的技术报告来看,包括预训练、上下文长度外推和后训练在内,DeepSeek-V3完整训练只需2.788M H800 GPU小时,其训练成本仅为557万美元,但该模型实现了与GPT-4o和Claude Sonnet 3.5(来自美国人工智能企业Anthropic)等顶尖模型相媲美的性能。
当时著名人工智能科学家卡帕西(Andrej Karpathy)就发文表示,这种级别的能力通常需要接近16000颗GPU的集群,而目前市场上的集群规模更是达到了10万颗GPU左右。
图片来源:视觉中国
尽管尚不清楚最新发布的DeepSeek-R1的训练成本,但其在服务价格上,相较性能相当的OpenAI的o1也有明显优势。DeepSeek-R1的API服务定价为每百万输入tokens 1元(缓存命中)/4元(缓存未命中),分别是OpenAI o1的2%和3.6%。
除了极致性价比,让DeepSeek的大模型脱颖而出的是其代码和训练方法的完全开源。