DeepSeek-V3自称ChatGPT 刷屏的DeepSeek-V3能力到底如何？

"DeepSeek-V3超越了迄今为止所有开源模型。"这是国外独立评测机构Artificial Analysis测试了DeepSeek-V3后得出的结论。

12月26日，深度求索官方微信公众号推文称，旗下全新系列模型DeepSeek-V3首个版本上线并同步开源。

公众号推文是这样描述的：DeepSeek-V3为自研MoE模型，671B参数，激活37B，在14.8T token上进行了预训练。DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

图片来源：深度求索微信公众号

不过，广发证券发布的测试结果显示，DeepSeek-V3总体能力与其他大模型相当，但在逻辑推理和代码生成领域具有自身特点。

更重要的是，深度求索使用英伟达H800 GPU在短短两个月内就训练出了DeepSeek-V3，仅花费了约558万美元。其训练费用相比GPT-4等大模型要少得多，据外媒估计，Meta的大模型Llama-3.1的训练投资超过了5亿美元。

消息一出，引发了海外AI圈热议。OpenAI创始成员Karpathy甚至对此称赞道："DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。DeepSeek-V3看起来比Llama-3-405B更强，训练消耗的算力却仅为后者的1/11。"

然而，在使用过程中，《每日经济新闻》记者发现，DeepSeek-V3竟然声称自己是ChatGPT。一时间，"DeepSeek-V3是否在使用ChatGPT输出内容进行训练"的质疑声四起。

对此，《每日经济新闻》记者采访了机器学习奠基人之一、美国人工智能促进会前主席Thomas G. Dietterich，他表示对全新的DeepSeek模型的细节还了解不够，无法给出确切的答案。"但从普遍情况来说，几乎所有的大模型都主要基于公开数据进行训练，因此没有特别需要合成的数据。这些模型都是通过仔细选择和清理训练数据（例如，专注于高质量来源的数据）来取得改进。"

每经记者向深度求索公司发出采访请求，截至发稿，尚未收到回复。