DeepSeek-V3自称ChatGPT 刷屏的DeepSeek-V3能力到底如何？

上下文窗口：DeepSeek-V3的上下文窗口比平均水平小，其上下文窗口为13万个Token。

最终Artificial Anlaysis得出结论：

"DeepSeek-V3模型超越了迄今为止发布的所有开放权重模型，并且击败了OpenAI的GPT-4o（8月），并接近Anthropic的Claude 3.5 Sonnet（10月）。

DeepSeek-V3的人工智能分析质量指数得分为80，领先于OpenAI的GPT-4o和Meta的Llama 3.3 70B等模型。目前唯一仍然领先于DeepSeek的模型是谷歌的Gemini 2.0 Flash和OpenAI的o1系列模型。领先于阿里巴巴的Qwen2.5 72B，DeepSeek现在是中国的AI领先者。"

广发证券：总体能力与其他大模型相当，逻辑推理和代码生成具有自身特点

12月29日广发证券计算机行业分析师发布研报称："为了深入探索DeepSeek-V3的能力，我们采用了覆盖逻辑、数学、代码、文本等领域的多个问题对模型进行测试，将其生成结果与豆包、Kimi以及通义千问大模型生成的结果进行比较。"

测试结果显示，DeepSeek-V3总体能力与其他大模型相当，但在逻辑推理和代码生成领域具有自身特点。例如，在密文解码任务中，DeepSeek-V3是唯一给出正确答案的大模型；而在代码生成的任务中，DeepSeek-V3给出的代码注释、算法原理解释以及开发流程的指引是最为全面的。在文本生成和数学计算能力方面，DeepSeek-V3并未展现出明显优于其他大模型之处。

训练仅花费558万美元，算力不重要了？

除了能力，DeepSeek-V3最让业内惊讶的是它的低价格和低成本。

《每日经济新闻》记者注意到，亚马逊Claude 3.5 Sonnet模型的API价格为每百万输入tokens 3美元、输出15美元。也就是说，即便是不按照优惠价格，DeepSeek-V3的使用费用也几乎是Claude 3.5 Sonnet的五十三分之一。

相对低廉的价格，得益于DeepSeek-V3的训练成本控制，深度求索在短短两个月内使用英伟达H800 GPU数据中心就训练出了DeepSeek-V3模型，花费了约558万美元。其训练费用相比OpenAI的GPT-4等目前全球主流的大模型要少得多，据外媒估计，Meta的大模型Llama-3.1的训练投资超过了5亿美元。

DeepSeek"AI界拼多多"也由此得名。

DeepSeek-V3通过数据与算法层面的优化，大幅提升算力利用效率，实现了协同效应。在大规模MoE模型的训练中，DeepSeek-V3采用了高效的负载均衡策略、FP8混合精度训练框架以及通信优化等一系列优化措施，显著降低了训练成本，以及通过优化MoE专家调度、引入冗余专家策略、以及通过长上下文蒸馏提升推理性能。这证明，模型效果不仅依赖于算力投入，即使在硬件资源有限的情况下，依托数据与算法层面的优化创新，仍然可以高效利用算力，实现较好的模型效果。

广发证券分析称，DeepSeek-V3算力成本降低的原因有两点。

第一，DeepSeek-V3采用的DeepSeekMoE是通过参考了各类训练方法后优化得到的，避开了行业内AI大模型训练过程中的各类问题。

第二，DeepSeek-V3采用的MLA架构可以降低推理过程中的kv缓存开销，其训练方法在特定方向的选择也使得其算力成本有所降低。

科技媒体Maginative的创始人兼主编Chris McKay对此评论称，对于人工智能行业来说，DeepSeek-V3代表了一种潜在的范式转变，即大型语言模型的开发方式。这一成就表明，通过巧妙的工程和高效的训练方法，可能无需以前认为必需的庞大计算资源，就能实现人工智能的前沿能力。

他还表示，DeepSeek-V3的成功可能会促使人们重新评估人工智能模型开发的既定方法。随着开源模型与闭源模型之间的差距不断缩小，公司可能需要在一个竞争日益激烈的市场中重新评估他们的策略和价值主张。

不过，广发证券分析师认为，算力依然是推动大模型发展的核心驱动力。DeepSeek-V3的技术路线得到充分验证后，有望驱动相关AI应用的快速发展，应用推理驱动算力需求增长的因素也有望得到增强。尤其在实际应用中，推理过程涉及到对大量实时数据的快速处理和决策，仍然需要强大的算力支持。

DeepSeek-V3自称ChatGPT 刷屏的DeepSeek-V3能力到底如何？(3)